세계 시가총액 상위 10위 안에 속한 플랫폼 기업들 빅데이터 활용해 새로운 부 축적
한국의 빅데이터 산업화는 과도한 개인정보 보호 관련 규제 때문에 발목이 잡혀 있어


1848년 금이 발견된 캘리포니아에 미국 전역에서 ‘진바지’ 입은 광부들이 ‘왜건’을 타고 몰려들어 ‘골드러시’를 이뤘다. 그런데 지나고 보니, 노다지는 금이 아니라 석유였다. 지천으로 방치된 석유를 정제해 등유와 연료로 쓰는 사용법을 사업화한 존 록펠러는 1870년 스탠더드오일을 창업한 지 12년 만에 미국 석유 시장의 95%를 독점했고, 세계 최고 부자가 됐다. 1911년 미국 연방 재판소의 반트러스트법 위반 판결로 사업에서 물러났지만, 그는 평생 축적한 막대한 재산으로 시카고대학, 록펠러재단을 설립해 고등교육과 자선사업의 새로운 이정표를 세웠다.

현대판 석유는 데이터다. 스마트폰을 이용한 통신, 신용카드 결제, 보험료 청구, 카톡과 트위터 등을 사용하면서 쌓이는 방대한 데이터는 제대로 정제하면 부가가치의 원천이 된다. 이 노다지를 캐려는 기업들로 인해 세계는 가히 ‘빅데이터러시’다. 2019년 세계 시가총액 상위 10위에 속한 아마존, 애플, 구글, 페이스북, 알리바바, 텐센트 등은 빅데이터를 활용해 새로운 부를 만든 플랫폼 기업이다.

아쉽게도 한국에는 제대로 된 플랫폼 기업이 없다. 한국 인터넷 서점의 이메일 광고는 피상적 신간 소개에 그치지만 아마존의 이메일 광고는 내가 꼭 읽고 싶은 책을 추천해준다. 어떻게 이런 ‘독심술’이 가능할까. 나와 가장 유사한 구매 프로필을 가진 사람들을 골라내 이들이 나보다 먼저 구매한 책을 추천하는 인공지능(AI) 때문이다. 빅데이터는 깊이는 얕지만 대상이 매우 넓다. 반복되는 패턴을 찾고 요약하는 머신러닝 기능을 갖춘 AI와 결합하면 뛰어난 예측력을 갖게 된다.

한국에서도 뒤늦게 빅데이터 러시다. 정부가 나서서 데이터 중심 정책 수립을 위한 공공데이터전략위원회를 설치했다. 데이터 기반 정책 개발을 위한 정부 예산도 대폭 늘렸다. 여러 대학의 통계학과나 관련 학과도 빅데이터학과로 간판을 바꿨다. 서울대도 곧 데이터 사이언스 전문대학원을 개원키로 했다.

그런데 정작 빅데이터 산업화는 과도한 개인정보 보호 관련 규제 때문에 발목이 잡혀 있다. 국회에서 장기 보류돼 온 개인정보보호법, 정보통신망법, 신용정보보호법 등 소위 ‘개·망·신 법’은 비식별 정보까지 무조건 반대하는 사회 분위기에서 통과무망이다. 안면인식 기술로 모든 인구의 개인정보를 축적해 사회 통제의 수단으로 활용하는 중국이라면 모르겠으나, 비식별 정보 데이터를 공공의 이익과 연구를 위해 개방한 페이스북과 학계가 협업하는 미국과 달리 한국에서는 개인정보에 대한 과도한 보호가 ‘신성불가침’으로 굳어 있다.

데이터 공유에 대한 강한 거부감도 문제다. 기세등등했던 중앙정보부 이래 정보에서 권력이 나온다는 생각 탓인지 소위 권력기관일수록 데이터 공유에 비협조적이다. 국세청은 통계청과도 데이터를 공유하지 않는다. 그러니 소득이나 자산 관련 데이터가 정확할 수 없고, 소득주도성장처럼 ‘희망적 사고’를 반영한 정책이 사라지지 않는다. ‘러시’에는 거품도 낀다. 반면에 만병통치약처럼 신비화된 빅데이터와 AI에 가려 기본은 소홀해진다. 조사데이터는 사례 수는 적은 ‘스몰’ 데이터지만 깊이 있는 정보를 담는다는 점에서는 ‘딥’ 데이터다. ‘작지만 깊은’ 전통적 조사데이터는 통계적 추론을 통해 일반화가 가능해 학술 연구와 정책대안 마련에 필수적인 자료다. 이런 데이터를 모으려면 정교한 표본설계와 정직한 조사 과정이 생명이다. 그런데 제대로 조사 비용을 들이지 않는 우리 현실에선 질 낮은 데이터가 넘쳐난다.

데이터의 품질에 자신이 없는 기관일수록 공유를 주저하고, 공개된 후 책임질 일을 두려워한다. 데이터 공유에 가장 소극적인 곳은 교육부와 교육 관련 연구기관이다. 드라마 ‘스카이캐슬’로 인구에 회자한 8학군 신화가 정말 맞는지 학생, 가족, 학교에 관해 제대로 된 패널데이터가 있다면, 과학적으로 검증할 수 있다. 그러나 학교별 학업 성취도를 국가 기밀처럼 다루는 교육부의 비밀주의 하에서는 미망일 따름이다.

각종 데이터를 폐쇄형 클라우드 안에 가둔 정부부처, 막대한 세금을 투입해 수집한 데이터를 움켜쥐고 공유하지 않는 정부 출연 연구기관, 설사 공유하더라도 무질서하게 쏟아부어 난지도 쓰레기장처럼 보이는 공공데이터 포털, 시·군·구 수준의 통계표를 만들고는 그 토대가 되는 미시자료는 없애버린 공공기관의 무개념 등은 빅데이터와 AI라는 대학원 수준 기술을 필요로 하는 ‘노다지’를 찾기 전 중학생 수준으로도 해결 못 하고 방치한 전통적 데이터의 현실을 돌아보게 만든다.

전통적 데이터부터 체계적으로 수집, 분류, 정리, 재활용하는 통합적 데이터 아카이브를 잘 꾸려 연구와 정책에 활용하는 생태계를 만드는 일. 이는 빅데이터산업을 주도해온 미국과 유럽의 공공부문이 60년 전부터 해온 일이다. 빅데이터러시 속, 기초 과정을 건너뛴 월반(越班)이 거품을 낳지 않을까 걱정된다.

이재열 서울대 사회학과 교수

트위터페이스북구글플러스