시사

시사 > 전체기사

스마일게이트 AI센터, 혐오 발언 데이터 공개

인공지능 윤리성 연구 일환… 55만여개 데이터 대상 1만개 데이터 선별


‘로스트아크’ ‘크로스파이어’ 등으로 유명한 게임사 스마일게이트가 AI센터를 통해 악플 및 혐오 발언 데이터셋을 공개한다.

20일 스마일게이트 AI 센터는 “최근 혐오 표현이 온라인 공간에서 광범위하게 증가하고 있고, 사회적 문제로 이어질 수 있다는 점을 고려해 혐오 표현을 선제적으로 감지하고 대응할 수 있도록 악플 및 혐오 발언 데이터셋을 구축했다”고 공개 이유를 설명했다.

스마일게이트에 따르면 이번 프로젝트는 지식 콘텐츠 스타트업 언더스코어와 협업을 통해 이뤄졌다. 악플 및 혐오 발언 데이터는 지난 2019년 1월 1일부터 지난해 7월 1일까지 포털 사이트, 커뮤니티 등 다양한 웹사이트의 게시글을 대상으로 수집했다. 수집 과정에서 혐오 관련 데이터의 시의성과 편향성을 띄고 있는 특성을 감안해 약 55만 여 개의 데이터를 기반으로 1만 개의 데이터셋을 구축했다. 그 결과 ‘여성/가족’ ‘성소수자’ ‘남성’ ‘인종/국적’ ‘연령’ ‘지역’ ‘종교’ ‘기타혐오’ 등 8개의 대상으로 데이터를 범주화 했다. 또 혐오 발언 분류를 위한 기준 모델을 공개하고, 이를 통해 혐오 발언 추출이 가능하게 했다.

스마일게이트 AI 센터 한우진 센터장은 “AI 센터는 자연어 처리 및 분류 관련 연구 목적 외에도 윤리성이 결여된 인공지능이 사회에 미치는 문제에 대해서 연구하고 있는 기관으로서 책임과 문제의식을 갖고 있다”면서 “이번에 공개된 데이터가 혐오 표현이나 인공지능의 윤리성이 사전에 분류 및 예방되어 좀 더 안전하게 인공지능을 활용하는 데 밑거름이 되기를 바란다”고 밝혔다.

이다니엘 기자 dne@kmib.co.kr

GoodNews paper ⓒ 국민일보(www.kmib.co.kr), 무단전재 및 수집, 재배포금지

국민일보 신문구독
트위터페이스북구글플러스