수많은 유령이 똑똑한 AI 만든다… 감춰진 인간의 피땀 [이슈&탐사]

[AI를 위해 일한다, 데이터 노동의 등장] ②사람의 손을 거쳐 태어나는 AI

인공지능(AI)으로 과거에 존재하지 않던 일의 영역이 생기고 있습니다. AI가 학습할 데이터를 수집하고 가공하는 일입니다. 정부가 ‘한국형 뉴딜’의 핵심 사업으로 구축하겠다는 ‘데이터 댐’은 이런 일을 확대해 AI 학습용 데이터와 일자리를 모두 늘리겠다는 취지입니다. 취재팀은 새롭게 열리고 있는 ‘데이터 노동’의 세계를 취재해 5회 기획기사로 준비했습니다.

안면인식 레이블링 작업 예시. 눈, 코, 입, 귀에 네모칸을 지정해준 뒤 각 항목에 대한 설명을 입력해야 한다. 한국정보화진흥원 AI Hub 웹사이트 캡쳐

어느날 당신의 아버지가 영상통화를 걸어와 이야기를 한다. 급하게 500만원이 필요하니 당장 입금해 달라고. 상황이 의심스럽지만 말하는 모습, 목소리 모두 영락없는 아버지다. 돈을 입금한 뒤 다시 아버지에게 전화를 건다. “돈 받으셨죠?”(자식) “무슨 돈?”(아버지)

딥페이크(Deepfake) 기술로 가능한 사기다. 딥페이크를 이용한 범죄는 가까운 미래에 누구에게나 일어날 수 있다. 주목할 점은 딥페이크를 잡아낼 기술도 개발되고 있다는 것이다. 영상 속 아버지가 진짜인지 가짜인지 단박에 알아내는 게 목표다. ‘머신 러닝’ 혹은 ‘기계 학습’으로 불리는 AI 기술이 여기에 쓰인다. 그리고 이 AI의 뒤편에 ‘노동’이 투입된다. 한두 사람이 아니다. 수백명이 딥페이크를 막기 위한 일을 하고 있다.

‘데이터 노동’ 시대가 열리고 있다
정부는 지난 6월 ‘딥페이크 방지 영상을 위한 AI 학습용 데이터 구축사업’을 민간업체와 공공기관에 맡겼다. 올해 1차로 진행한 390억원 규모 ‘AI 학습용 데이터 구축사업’ 20개 과제 중 하나다. 추경 2925억원으로 마련한 2차 사업에서는 이런 과제를 150개 더 추가했다. 문재인 대통령이 직접 발표한 ‘디지털 뉴딜’ 사업의 핵심인 ‘데이터 댐’ 건설의 일환이다. 정부는 2차 사업으로만 2만8000명이 일자리를 얻을 것으로 예상하고 있다. 2025년까지 6년간 이 AI 학습용 데이터 구축 사업에 2조5000억원을 투입한다는 계획이다. AI를 가르치기 위해 데이터를 수집하고 가공하는 ‘데이터 노동’이라는 새로운 일자리의 시대가 열리고 있다.

딥페이크 방지 영상을 위한 AI 학습용 데이터는 두 개의 영상 세트로 구성된다. 하나는 진짜 영상이고 다른 하나는 가짜 영상이다. 진짜와 가짜를 함께 AI에 입력하고 AI가 스스로 차이를 알아낼 수 있도록 학습, 훈련시키는 게 딥페이크 방지 기술의 핵심 원리다. 정부 사업을 수주한 AI 전문기업 머니브레인의 권용재 연구원은 이렇게 설명했다. “처음에는 진짜와 가짜를 섞어 100개를 보여줍니다. 그중 가짜 50개 영상에서 눈에 문제가 있으면 기계는 ‘눈에 문제가 있으면 변조 영상이구나’ 하고 결정을 내립니다. 그 다음에 또 100개를 보여줍니다. 이번에는 눈뿐 아니라 입에 문제가 있는 영상도 있습니다. 눈만을 기준으로 하면 틀리니까 기계는 ‘눈과 입을 다 봐야 하는구나’라고 결정을 합니다. 이런 식으로 계속 훈련을 시켜 정답에 가까운 답을 내도록 하는 게 기계 학습입니다.”

권 연구원은 동료 유재성 연구원과 함께 가짜 영상을 만드는 일을 한다. 진짜 영상을 확보한 뒤 일부러 변조해 데이터 세트를 구성한다. 이런 학습용 데이터 세트가 많을수록 AI의 능력은 강해진다. 문제는 진짜 영상을 확보하는 일이다. 다른 사람의 영상을 제멋대로 가져다 쓸 수는 없다. 정치인, 연예인의 영상은 초상권 문제가 걸려 있다. 외국인의 영상을 쓰면 한국인에게 적용하기 어렵다. 국내에서 쓰일 기술이면 한국인의 영상이 필요하다.

30대 후반 여성을 찍은 원본 영상(왼쪽)에 딥페이크 기술을 적용해 20대 중반의 여성 얼굴로 변조한 영상 캡쳐(오른쪽). AI는 진짜와 가짜 영상을 학습해 딥페이크 변조영상 탐지기술을 습득한다. 한국정보화진흥원 AI Hub 웹사이트 캡쳐

여기가 데이터 노동이 생기는 첫 번째 지점이다. 즉 영상 촬영의 대상이 될 한국인이 필요하다. 현재 한국인 400여명이 딥페이크 방지를 위한 영상 촬영에 참여하고 있다. 정부 예산이 이들의 인건비로 쓰인다. 유재성 연구원은 “성별로 연령대가 다양한 400여명이 촬영을 하고 있다. 정부의 자금 지원이 나오므로 금전적 보상을 내걸고 사람을 모집한 것”이라고 말했다.

영상을 촬영하고 가공하는 일은 AI 데이터 기업 크라우드웍스가 맡고 있다. 이 회사 관계자에 따르면 촬영에 참여하는 사람들은 몸을 고정하고 한 곳만 바라보면서 똑같은 말을 100번 넘게 반복해야 한다. 이 관계자는 “상반신 어깨까지 나오는 방식으로 촬영을 하는데 모두 100초에 이르는 문장 열 개를 150차례 반복해 말하는 식”이라고 말했다.

참여자에게는 다른 데이터 수집·가공 프로젝트에 비해 높은 보상금이 지급된다. 얼굴이라는 개인정보를 공개해야 하는 부담이 있어서다. 회사 관계자는 “정확한 비용을 공개하기 어렵지만 보상이 일반 프로젝트에 비해 훨씬 높을 수 있다”고 말했다.

촬영된 영상을 바로 AI에 투입할 수 있는 것은 아니다. AI가 눈, 코, 입을 인지할 수 있도록 표시를 해줘야 한다. 즉 왼쪽 눈에는 ‘왼쪽 눈’이라는 이름을, 오른쪽 눈에는 ‘오른쪽 눈’이라는 이름을 붙여줘야 한다. 이 작업을 ‘데이터 라벨링’으로 부른다. 사람의 노동이 필요한 두 번째 지점이다. 이 일을 하는 사람들은 ‘데이터 라벨러’다. 라벨링은 데이터 노동의 가장 대표적인 유형이다. 크라우드웍스 관계자는 “딥페이크 방지 영상 관련 라벨링은 곧 프로젝트를 시작해 수십명을 선발할 계획”이라며 “이력을 보고 이미지 라벨링 작업에 숙련된 사람 위주로 선별할 것”이라고 말했다.

수많은 손을 거쳐 태어나는 AI
정부 AI 학습용 데이터 구축 사업 중에는 ‘한국인 재식별 AI 학습용 데이터’를 모으는 일도 있다. 여러 CCTV 영상을 보고 거기에 등장하는 동일한 사람을 찾아내는 기술을 위한 것이다. 이 기술이 고도화되면 실종 아동을 찾거나 범인의 동선을 추적하는 일이 쉽고 정확해진다.


한국인 재식별 AI 모델을 구현하는 데도 노동력이 대거 투입된다. 현재 이 사업은 보행자 1000명의 영상을 찍고 있다. 촬영은 경기도 안양시의 협조를 얻어 관내 CCTV 주변에서 이뤄진다. 영상 이미지 패치(조각)로 따지면 400만장 이상의 데이터를 확보하는 게 목표다. 한 명당 최소 10대의 CCTV에 10초 이상 노출시킨다. 지나가는 사람을 아무나 찍는 게 아니다. 촬영에 참여할 1000명을 모집하고 이들에게 보수를 지급한다.

촬영된 영상은 다시 데이터 라벨러의 손을 거친다. 라벨러들은 400만장의 이미지를 하나하나 들여다보면서 ‘머리가 긴 사람이다’ ‘상의는 녹색이다’ ‘하의는 검정이다’ 등 데이터의 속성을 표시하는 작업을 하고 있다. 촬영 장소의 실내·실외 여부와 시간대, 마스크 착용 여부, 성별, 나이, 키 등에 대한 정보도 입력한다. AI가 인식할 수 있도록 데이터를 가공하는 일이다.

사업 컨소시엄 중 휴먼아이씨티라는 업체가 촬영 및 데이터 가공 작업을 하고 있다. 이 업체는 이 일을 위해 최근 수십명을 신규 채용했다고 한다. 이 사업의 대표 수행 기관인 한국과학기술연구원의 조정현 선임연구원은 “휴먼아이씨티에서 데이터 색인 작업을 하는 사람만 30명이고 신규 채용한 사람은 50명이 넘는다”고 말했다. 조 연구원은 “색인은 시간과 비용이 많이 드는 작업”이라면서 “정부 사업비 대부분이 사람을 채용하고 그 사람들로 하여금 데이터 색인 기술을 익히도록 하는 데 사용된다”고 말했다.

AI를 만드는 데 많은 노동력이 필요한 이유는 잘 정돈된 데이터가 AI 구현에 필수적이기 때문이다. 지금의 AI 모델은 대부분 기계 학습에 기반하고 있다. AI가 학습할 데이터가 많아질수록 주어진 문제를 해결할 확률이 높아진다. 바둑 AI인 알파고를 학습시키는 데 수십만 건의 기보가 필요했듯 다른 분야의 AI도 엄청난 양의 데이터가 필요하다. 그렇지만 현실에서 AI를 가르칠 데이터는 많지 않다. 특히 국내에서 작동시키려면 우리의 현실에 맞는 데이터가 있어야 하지만 턱없이 부족한 실정이다.


신진섭 한국과학기술정보연구원(KISTI) 콘텐츠큐레이션센터 선임연구원은 “현재 전 세계적으로 AI를 구현하는 알고리즘은 거의 100% 공개돼 있는 상태”라며 “결국 정제된 데이터를 많이 가져야 승리할 수 있는데 애석하게도 우리는 기계가 읽을 수 있는 정제된 데이터가 너무 없는 형편”이라고 말했다.

데이터 노동의 종류는 구현하고자 하는 AI 모델에 따라 천차만별이다. AI를 사람처럼 듣고 말하게 하려는 자연어 처리 분야에서는 말뭉치 데이터의 생성과 가공이 필요하다. 자율주행 자동차 분야에서는 도로 주변 사물에 대한 데이터 처리가 필수적이다. AI 데이터 기업 크라우드웍스 홈페이지에는 ‘치과용 CT 영상 데이터를 대상으로 3D 그래픽 작업을 통한 세그멘테이션(세분화) 작업’ ‘일본인 통화 녹음 작업’ ‘위치정보 데이터 수집’ 등 각양각색의 일이 올라와 있다. 이 회사는 “자율주행과 사물인터넷(IoT) 등 4차 산업혁명의 핵심 기술이 속속 등장하면서 음성, 동영상 등 비교적 작업 난도가 높은 데이터의 수요가 증가하고 있다”고 말했다.

데이터 노동은 AI 학습용 데이터 아웃소싱 단계의 가장 끝단에 있다. 데이터가 필요한 기업은 직접 일하기보다 ‘이러이러한 데이터를 모아 달라’고 전문 데이터 수집·가공 기업에 주문한다. AI 학습용 데이터는 늘 필요한 것이 아니어서 기업이 상시 조직을 두기는 어렵다. 주문을 받은 기업은 크라우드소싱 방식으로 데이터를 수집, 가공한다. AI 데이터 기업 셀렉트스타의 김세엽 대표는 “많은 사람이 나눠 작업하면 일을 빨리 끝낼 수 있다. 누구나 자유롭게 작업에 참여하고 수행한 일이 검수를 통과하면 보상을 받을 수 있다”고 말했다.

데이터 노동 상당수는 시간과 장소에 상관없이 일하는 게 가능하다. 특히 데이터 생성, 수집 단계의 작업은 대부분 하루 한두 시간만 일해도 된다. 컴퓨터만 다룰 줄 알면 되므로 나이도 상관 없다. 진입장벽이 낮아 장애가 있어도 할 수 있는 일이 다양하다.

지난 7일 찾은 서울 송파구 데이터큐 교육장에는 청각장애인 4명이 데이터 라벨링 교육을 받고 있었다. AI 데이터 기업인 테스트웍스의 자회사인 데이터큐는 장애인과 경력단절 여성 등 고용 취약계층을 데이터 인력으로 키워내는 교육을 진행 중이다. 이날 교육은 모니터 속 차량번호판을 영역으로 지정한 뒤 숫자와 글씨를 입력하는 방법을 안내하는 내용이었다. 이미지 데이터 라벨링 중에서 가장 난도가 낮은 단계로 꼽히는 OCR(광학문자인식) 작업이다.

지난 7일 서울 송파구 AI데이터 전문기업 테스트웍스의 자회사 데이터큐 사무실에서 한 발달장애인이 차량 번호판을 입력하는 라벨링 업무를 하고 있다. 권현구 기자

시연에 나선 발달장애인 A씨가 마우스로 드래그해 사진 속 숫자를 하나하나 사각형으로 영역 지정했다. 오른쪽 하단에는 숫자인지, 문자인지 분류를 한 뒤 내용을 입력했다. 윤재홍 테스트웍스 운영지원팀 선임은 “발달장애인에게 업무 방식을 충분히 알려주면 작업 속도가 정말 빠르다. 숙련도가 올라가면 장애인 작업자도 검수 인력으로 성장할 수도 있다”고 말했다.

정부가 ‘긱 이코노미’ 확장하나
AI를 위한 노동은 겉으로 잘 드러나지 않고 의도적으로 감춰지는 경우가 많다는 점에서 전문가들은 이를 ‘유령 노동(ghost work)’으로 부른다. 미국 마이크로소프트 연구소의 메리 그레이와 시다스 수리는 지난해 책 ‘고스트 워크’에서 AI를 발달시키고 보완하는 업무를 하는 사람들을 ‘유령 노동자(ghost worker)’로 불렀다.

그동안 AI를 위한 데이터 노동은 민간 기업 중심으로 진행됐다. 아마존은 엠터크(아마존 미캐니컬 터크(Amazon Mechanical Turk)의 약칭)라는 사이트를 통해 데이터 노동을 중개하고 있다. 기업이나 기관이 필요한 ‘데이터 작업’을 엠터크 사이트에 올려두면 전 세계에 있는 참여자들이 자신이 할 수 있는 일을 골라 하고 작업별로 보수를 받는다.

국내에서는 데이터가 필요한 기업이 데이터 전문 기업에 주문하는 식으로 데이터 노동이 이뤄져 왔다. 정규 일자리라기보다 ‘알바’ 개념이 강했다. 필요에 따라 임시로 일을 주문하고 맡기는 긱(gig) 이코노미의 대표적 현상으로 여겨졌다.

정부의 데이터 댐 구축 추진은 민간 중심인 데이터 노동 시장을 정부가 주도적으로 확장한다는 의미가 있다. 올해 추진되는 사업 과제 170개에는 다양한 AI 학습용 데이터가 망라돼 있다. 한국인 두피 상태 이미지, 한국인 방언(사투리) 발화, 여러 암 진단을 위한 의료 영상 데이터, 주행 중 건물 촬영 이미지, 생활폐기물 이미지 등이다.

정부 주도의 데이터 노동 시장 확장은 일단 AI산업 발전에 긍정적으로 작용할 것으로 보인다. 관련 전문가들은 국내 데이터가 부족하므로 이런 데이터를 모으는 일은 중요하다고 말한다. 그렇지만 짧은 기간에 대량의 데이터를 수집, 가공한다는 현재 정책 모델이 얼마나 효과를 낼 것인지 의문이 제기된다. 국무총리 산하 공공데이터전략위원회 실무위원을 맡고 있는 김학래 중앙대 문헌정보학과 교수는 “예산 3000억원을 올해 안에 다 소진해야 하는데 주어진 시간은 3개월 정도”라면서 “과연 그 안에 적절한 관리체계를 확보하고 양질의 데이터를 만들 수 있을지 의문”이라고 말했다.

무엇보다 오로지 일자리 창출이라는 목적으로 일회성이거나 단기적인 성격의 일을 양산하는 게 아니냐는 비판이 나온다. 유령 노동과 긱 이코노미가 확대되는 현상을 정부가 앞당기는 결과를 낳을 수 있다는 우려도 있다. 이에 대해 박정은 한국정보화진흥원 AI데이터추진단장은 “정부 사업이 시작된 지 얼마 되지 않았고 시장도 아직 성숙되지 않았다”며 “데이터 라벨러들이 잘 성장할 수 있도록 돕는 정책도 함께 이뤄지고 있기 때문에 라벨러를 발판으로 데이터 기획자나 관련 전문가로도 성장해 나갈 수 있을 것”이라고 말했다.

이슈&탐사2팀 권기석 김유나 권중혁 방극렬 기자 keys@kmib.co.kr

[AI를 위해 일한다. 데이터 노동의 등장]
▶①하루종일 띄어쓰기 교정만… 난 AI 로봇의 비서인가[이슈&탐사]
▶③‘21세기 눈알박기’ 인간 번역 없으면 파파고도 엉망될 걸?[이슈&탐사]
▶④하루 100만원도 벌지만… “본업으로 할 일은 아니에요” [이슈&탐사]
▶⑤문장 하나 녹음하고 50원, 이건 뉴딜인가 알바인가 [이슈&탐사]
트위터페이스북구글플러스