올해 미국 시장조사업체인 IDC는 "지난 10년간 생성된 정보량보다 최근 2년간 생성된 것이 훨씬 더 많으며, 2020년이 되면 현재의 50배가 될 것"이라고 전망했다. 우리는 '빅데이터'의 정보 홍수 속에 살고 있으며, 과학자들도 이를 피해갈 수 없게 되었다.
주위 과학자들에게 물어보면 인접 분야는 차치하고라도 자신의 분야에서 최근 논문을 다 소화하며 최신 연구동향을 따라가는 것은 거의 불가능해지고 있다고 한다. 왜냐하면 새로운 학술논문 출판이 그야말로 기하급수적으로 늘어나고 있기 때문이다. 예를 들어 생의학 분야에서는 현재 2,000만 개 논문이 있고, 매일 4,000편이 추가되고 있다.
'빅데이터'시대에 맞춰 문헌을 읽고, 정보 질을 평가하고, 사실들간 패턴과 연결성을 찾아내고, 시험해볼 가설을 만들어낼 수 있는 새로운 방식이 과학자들에 의해 시도되고 있다. 특히 이러한 과학 발견 과정을 가속화하기 위해 엄청난 수의 요인들을 고려해 복잡한 연산을 수행할 수 있는 컴퓨터의 능력을 최대한 활용하는 '텍스트마이닝'기법이 활용되기 시작했다.
최근 영국 케임브리지대 안나 코호넨 박사 팀이 인간과 유사한 방법으로 논문 문장을 이해하는 새로운 컴퓨터 알고리즘을 개발했다. 이 연구팀은 우선 가장 문헌 의존도가 높은 생의학 분야에서 화합물의 암발생 위험성 평가에 초점을 맞췄다. 매년 수천 개 새로운 화합물이 개발되면, 사람 건강에 잠재적인 위험을 주는 유독성 물질인지에 대한 매우 복잡한 평가 과정을 거쳐서 노출도와 발병가능성간 관계를 판단해야 한다. 보통 첫 번째 단계는 문헌 검토로 진행되는데, 학술논문의 빅데이터화로 수작업이 어려워져 텍스트마이닝에 의존하게 된다는 것이다. 이 연구팀의 '바이오텍스트마이닝' 기법은 학술논문 텍스트나 이미지를 포함한 비정형 데이터에서 의미있는 정보를 자동으로 찾아내고 상호연관관계를 지워주는 것을 가능하게 해준다고 한다.'텍스트마이닝' 기법은 인간 언어와 같은 자연어 처리 기술의 혁명적 발전에 기초하고 있다. 올해 초 IBM 인공지능 슈퍼컴퓨터 '왓슨'이 미국 인기 퀴즈쇼 '제퍼디!'에서 역대 최강 챔피언을 포함한 인간 도전자들을 누르고 최종 우승한 것도 바로 이 덕분이다. '왓슨'은 자연어 처리에 기초한 인공지능 기술로 무장해 사람 언어를 분석하고, 방대한 데이터베이스에서 답을 찾아 그 정확도도 함께 평가해내는 놀라운 능력을 보유하고 있는 것이다. 최근 화제가 되고 있는 아이폰 '시리'도 지능형 음성인식 서비스와 텍스트마이닝 기술의 연동으로 탄생한 일종의 '인공비서'라고 할 수 있다.
얼마 전 발표된 'IBM 기술동향 보고서'는 인공지능 '왓슨'이 앞으로 맹활약할 분야로 교육과 의료분야를 들고 있다. 특히 인공지능형 '텍스트마이닝' 기술은 금융서비스, 생명과학, 소셜네트워크 등 '빅데이터'와 관련된 분야에서 활발하게 응용될 수 있을 것으로 전망되고 있다. '왓슨'은 이미 미국 병원 '세톤 헬스케어 패밀리'와 함께 비정형의 의료용 콘텐츠 및 예측 분석 등 헬스케어 시장에 진출하고 있다고 한다. 벌써 똑똑해진 컴퓨터가 진단을 보조하고 당신의 치료를 돕는 시대가 성큼 다가온 것이다.
컴퓨터 및 다양한 스마트 기기 인공지능은 점점 인간을 닮아가고 있다. 그리고 인간은 점점 더 똑똑해지는 기기들 도움으로 더 완벽하고 창의적인 존재로 진화해나가고 있다. '빅데이터'격랑 속에 이제 과학적 발견도 '인공지능 비서'와 함께 하는 시대가 온 것인가?
김승환 포스텍 물리학과 교수
기사 URL이 복사되었습니다.
댓글0