읽는 재미의 발견

새로워진 한국일보로그인/회원가입

  • 관심과 취향에 맞게 내맘대로 메인 뉴스 설정
  • 구독한 콘텐츠는 마이페이지에서 한번에 모아보기
  • 속보, 단독은 물론 관심기사와 활동내역까지 알림
자세히보기
AI 학습 데이터에 일본 아동 포르노 사진이… "필터 있어도 못 걸러"
알림
알림
  • 알림이 없습니다

AI 학습 데이터에 일본 아동 포르노 사진이… "필터 있어도 못 걸러"

입력
2024.03.21 18:00
수정
2024.03.21 18:14
14면
0 0

요미우리 "AI 데이터세트에 아동 포르노 확인"
일본 국회 열람 금지한 아동 포르노 사진첩도
필터 기능 기술력 부족… "사회적 책임 필요"

생성 인공지능(AI)의 오남용 사례가 늘어나면서 AI 규제와 관련된 논의가 진행되고 있다. 게티이미지뱅크

생성 인공지능(AI)의 오남용 사례가 늘어나면서 AI 규제와 관련된 논의가 진행되고 있다. 게티이미지뱅크

생성 인공지능(AI)이 학습하는 데이터 안에 25년 전 공개를 금지한 아동 포르노 사진이 포함됐다고 일본 요미우리신문이 21일 보도했다. 그러나 지금 기술로는 이러한 유해 이미지를 완전히 걸러내지 못하는 상황이다. AI가 아동 포르노를 학습하지 못하도록 서둘러 기술을 보완하고, 개발사들이 수습에 나서야 한다는 지적이 나온다.

데이터 무분별하게 모으고, 거를 기술은 부족

요미우리에 따르면 유명한 생성 AI인 '스테이블디퓨전'이 학습하는 데이터세트(데이터 집합체)에 일본 국립국회도서관이 열람을 금지한 아동 포르노 사진집이 포함돼 있었다. 독일 뮌헨대 기술로 영국 스타트업 '스태빌리티AI'가 만든 스테이블디퓨전은 문장이나 단어를 입력하면 이에 맞는 그림이나 사진 등 이미지를 생성하는 AI로 유명하다.

문제의 사진집은 나체 상태의 소녀들을 촬영한 것으로 1993년 출판됐다. 일본은 1999년에야 아동을 성적 대상으로 촬영한 사진을 공개하지 못하게 하는 '아동 매춘·포르노 금지법'을 제정했고, 일본 국회도서관은 2006년 '아동 포르노에 해당할 소지가 있다'며 이 사진집에 대한 열람을 금지했다. 그러나 스테이블디퓨전의 학습 데이터세트에는 해당 사진집 외에도 아동의 나체 사진이 다수 포함돼 있었다.

지난달 27일 스페인 바르셀로나에서 열린 모바일월드콩그레스(MWC) 2024에서 한 방문객이 마이크로소프트 부스를 배경으로 사진을 찍고 있다. 바르셀로나=AP 연합뉴스

지난달 27일 스페인 바르셀로나에서 열린 모바일월드콩그레스(MWC) 2024에서 한 방문객이 마이크로소프트 부스를 배경으로 사진을 찍고 있다. 바르셀로나=AP 연합뉴스

이 데이터세트는 기계학습을 위한 데이터를 무상으로 제공하는 독일 비영리 네트워크인 '라이온(LAION)'이 공개한 것으로, 58억5,000만 개의 이미지가 들어있다. 온라인상의 방대한 자료를 무차별적으로 수집하다 발생한 문제다. 미국 스탠퍼드대 인터넷관측소(SIO)는 지난해 12월 라이온의 데이터세트에서 아동을 성적 대상으로 한 이미지 1,008개와 의심 소지가 있는 이미지 3,226개를 발견했다고 발표한 바 있다.

생성 AI는 학습 내용을 바탕으로 이미 유해 콘텐츠를 생산하고 있다. 최고 수준의 기술을 보유한 글로벌 기업도 예외는 아니다. 미국 월스트리트저널은 지난 6일 마이크로소프트(MS)의 한 AI 기술자가 자사의 생성 AI가 성적 묘사를 담은 유해 콘텐츠를 생산한다는 내용을 회사에 보고했다고 보도한 바 있다.

"AI개발사, 학습 데이터 공개해야"

일론 머스크 테슬라 최고경영자가 지난해 9월 13일 인공지능(AI) 규제에 관한 비공개 포럼이 열리는 워싱턴 의회에 도착하면서 넥타이를 고쳐 매고 있다. 워싱턴=AP 뉴시스

일론 머스크 테슬라 최고경영자가 지난해 9월 13일 인공지능(AI) 규제에 관한 비공개 포럼이 열리는 워싱턴 의회에 도착하면서 넥타이를 고쳐 매고 있다. 워싱턴=AP 뉴시스

전문가들은 기술 보완과 함께 AI 업체들이 사회적 책임을 져야 한다고 지적한다. 데이터세트를 사용할 때 유해 이미지를 거르는 '필터 기능'이 있지만, 제대로 작동하지 않아 이 같은 문제가 발생하기 때문이다. 기시모토 아쓰오 오사카대 사회기술공창연구센터장은 요미우리에 "학습 데이터에 아동 포르노가 포함되면 피해자 인권을 침해할 수 있다"며 "개발업체들은 대책을 강구하고, 어떤 데이터를 학습했는지 공개해야 한다"고 말했다.

요미우리는 "스태빌리티AI에 '유해 이미지를 완벽하게 걸러내지 못했을 가능성에' 대해 물었지만 답은 오지 않았다"며 "스테이블디퓨전 외에도 생성 AI가 많지만 (개발사들은) 어떤 데이터를 학습하는지 밝히지 않고 있다"고 짚었다.


도쿄= 류호 특파원

기사 URL이 복사되었습니다.

세상을 보는 균형, 한국일보Copyright ⓒ Hankookilbo 신문 구독신청

LIVE ISSUE

기사 URL이 복사되었습니다.

댓글0

0 / 250
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.