젋은 과학자 손에 태어난 '엔그램 뷰어' 구글 디지털책 800만권 단번에 검색
단어 등장하는 빈도 그래프로 보여 줘 빅테이터 이용한 인문학의 신세계 열어
‘진격의 서막’이라니, 무언가 박진감 넘치는 사건을 목격할 것 같다. ‘빅데이터 인문학’이라는 낯선 조합도 궁금증을 자아낸다. 빅데이터라면 흔히 마케팅 도구로 활용하는 데이터뭉치를 가리키는 게 아닌가. 그런 빅데이터로 인문학을 한다고?
‘빅데이터 인문학 : 진격의 서막’은 그런 기대와 설렘에 부응하고도 남는 책이다. 빅데이터가일으킬 인문학 혁명을 이야기한다. ‘빅데이터 인문학’이라는 낯선 세계로 독자를 안내하는 한국어판 특집으로 빅데이터 전문가와 인문학자의 좌담을 넣었다. 한국 인문학계의 데이터 구축 현황과 활용 정도, 빅데이터에 기반한 정량적 분석에 대한 인문학계의 반응, 빅데이터가 인문학과 사회 전반에 열어줄 가능성과 한계 등을 다루고 있어 본문 읽기에 앞서 워밍업으로 좋다.
‘전인미답’이라는 뜻의 원서 제목(‘Uncharted’)이 일러주듯 책은 30대 초반 두 젊은 과학자의 신대륙 탐험기다. 신대륙 이름은 ‘빅데이터 인문학’이다. 아무도 밟은 적 없는 이 땅의 관문은 세상의 모든 책을 디지털화하겠다는 구글의 디지털 바벨 도서관, 탐색 도구로 휴대한 망원경 겸 현미경은 ‘엔그램 뷰어’, 이 모든 작업의 방향을 잡아준 나침반은 ‘컬처로믹스’다.
이야기는 2007년부터 시작한다. 그 해 어느 날, 하버드의 두 젊은 과학자가 디지털 바벨의 도서관으로 들어갔다. 둘은 ‘구글 북스 라이브러리 프로젝트’가 구축한 3,000만권 이상의 디지털 책 가운데 500만권에서 8,000억개의 단어를 뽑아 각 단어가 얼마나 자주 등장하는지 빈도를 셌다.
클릭 한 번으로 그 많은 책을 한꺼번에 검색해 특정 단어의 사용 빈도 통계를 순식간에 뽑아내는 프로그램이 엔그램 뷰어, 엔그램 뷰어가 내놓은 결과물을 관찰하는 렌즈가 컬처로믹스다. 두 저자의 표현을 빌면 컬처로믹스는 ‘언어와 문화, 역사에 대한 이상하고 매혹적이고 중독성 강한 접근법’이다. 엔그램 뷰어는 2010년 처음 공개됐을 때 홈페이지 (books.google.com/ngrams) 방문자가 24시간 동안 300만명을 넘었고 지금도 많은 중독자를 거느리고 있다.
처음 500만권으로 시작한 두 사람의 모험은 800만권까지 확장됐다. 1520년부터 2012년까지 나온 책들이라는 점에서 롱데이터이기도 한 이 빅데이터로 읽어낸 인문학적 서사가 바로 이 책이다. 전통적인 방식으로는 접근조차 힘든 방대한 광맥이 인문학 연구의 새로운 노다지로 노출된 셈이다. 이를 활용하면 인간과 사회의 역사를 읽을 수 있다는 점에서 빅데이터 시대의 인문학은 곧 데이터를 읽는 눈이라 하겠다.
엔그램 뷰어는 누구나 당장 체험할 수 있다. 홈페이지에 들어가 특정 단어를 입력하면 데이터가 그리는 아름다운 곡선이 뜬다. 그 단어가 책에 등장하는 빈도를 연도별 추이로 보여주는 그래프다. 두 개 이상의 단어를 짝을 이뤄 엔그램 뷰어를 돌렸을 때 나타나는 각 단어의 곡선은 두 단어 사이 모종의 관계를 암시한다. 책의 부록 ‘빅데이터로 본 문화사 : 1800~2000’에 실린 종교ㆍ과학ㆍ정치ㆍ사회 등 21개 분야 48개의 그래프에서 이를 확인할 수 있다. 가로축(연도)과 세로축(단어의 등장 빈도) 사이를 가르는 두 개의 곡선만으로도 인간의 역사와 문화에 대해 다양한 추론과 상상이 가능하다.
예컨대 종교 분야에서 신과 데이터, 두 단어가 그리는 곡선 그래프는 그 자체로 빅데이터 시대의 도래를 웅변한다. 1800년대 중반까지만 해도 신이 압도적 우위를 차지했으나 1800년대 후반 이후 신이 하강 곡선을 긋더니 1973년을 기점으로 데이터가 신을 추월했다. 신보다 데이터가 중요해진 것이다. 그 해에 무슨 일이 있었길래 그리 됐을까. 해석은 인문학의 몫이다. 바로 이 지점에서 인문학과 데이터과학이 만난다. 도킹에 성공하면 놀라운 신세계로 들어갈 것이다. .
빅데이터 인문학은 무한 가능성에 열려 있는 새로운 지평이지만, 이 책은 빅데이터 만능론을 경계함으로써 더욱 신뢰감을 준다. 두 저자는 엔그램 뷰어가 분석한 빅데이터는 상관관계를 암시할 뿐 인과관계를 입증하는 건 아니라고 말한다. 이는 단어의 맥락을 배제한 채 사용 빈도만 추출한 데서 오는 근본적 한계다. 구글은 맥락 분석까지 포함한 접근을 허용하지 않았다. 그럴 경우 책의 저작권 등 법적 문제가 발생할 수 있기 때문이다.
이는 빅데이터 인문학을 개척하려는 이들이 부딪칠 난관 중 하나다. 빅데이터는 대부분 정부나 공공기관, 거대기업이 갖고 있으면서 개인의 접근을 제한하고 있다. 이러한 폐쇄성은 빅데이터를 활용한 연구에 걸림돌이 될 수 있다.
사회적 합의가 이뤄져 맥락 분석까지 할 수 있게 되더라도 데이터를 분석하고 가공하는 방법에 따라 세상을 바라보는 눈에 왜곡이 일어날 수 있다. 정책적이고 철학적인 이런 문제를 검토하기 위해서도 빅데이터는 인문학과 결합해야 하며, 이는 돌이킬 수 없는 대세라고 이 책은 강조한다.
책은 두 저자가 컬처로믹스 접근법으로 시도한 빅데이터 인문학 사례들을 소개하고 있다. 엔그램 데이터를 사용해 영문법에서 불규칙동사들의 운명을 추적함으로써 언어의 진화 원리를 파악하는가 하면 사전들이 얼마나 많은 단어를 놓치고 있고 왜 그럴 수밖에 없는지, 사람들이 어떻게 유명해지며, 정부가 어떻게 사상을 억압하고, 사회가 어떻게 배우고 망각하는지 집단기억의 반감기를 분석했다. 나치의 예술 탄압이나 중국의 인터넷 검열도 엔그램 데이터를 돌렸더니 적나라하게 드러났다.
흥미진진한 내용에 유머까지 갖춘 매력 만점 책이다. 한국어판 특별좌담에 참여한 전문가의 말대로 ‘무협지 같은 서사가 있는’ ‘굉장히 잘된 스토리텔링’ 덕분에 쾌속 질주하듯 읽을 수 있다. 오미환 선임기자 mhoh@hk.co.kr
기사 URL이 복사되었습니다.
댓글0