어떤 말의 쓰임을 다양하게 보고 싶을 때 국어사전에 제시된 용례를 보게 된다. 그런데 사전에 제시된 용례는 대개 전형적이고 정돈된 것이 많다. 실제로 어떤 맥락에서 사용되는지, 언제부터 쓰였는지, 얼마나 자주 사용되는지 등은 알기 어렵다. 그럴 때 찾아볼 수 있는 것이 ‘말뭉치’이다. 많은 사람들에게 ‘말뭉치’는 낯선 개념일 것이다. 외국어를 사용하여 ‘코퍼스(corpus)’라고도 한다. 간단히 말하면, ‘말뭉치’는 실제 사용되고 있는 말을 다양한 방식으로 수집하고, 그것을 필요한 방식으로 활용할 수 있도록 입력하고 분석한 자료라고 할 수 있다.

그런데 말뭉치는 이처럼 단순히 말의 쓰임만을 확인하는 자료가 아니다. 오히려 현재 구축되는 말뭉치는 컴퓨터의 언어 처리와 깊게 관련이 있다. 요즘 많은 가전 제품들은 ‘인공 지능’을 앞세워 웬만한 음성 인식 기능을 갖추고 있는데, 이는 결국 우리가 사용하는 한국어를 컴퓨터가 인식하고 이해해야만 가능한 것이다. 따라서 대규모 한국어 자료를 컴퓨터가 이해할 수 있는 방식으로 분석하여 구축하는 것은 인공 지능 프로그램의 기본이라 할 수 있다. 이러한 언어 자료가 모두 말뭉치이다.

인공 지능이 최대 화두인 4차 산업 혁명 시대에 말뭉치는 더욱 중요한 자료가 되었다. 그래서 세계 각국이 말뭉치 구축에 힘을 쏟고 있으며, 우리나라도 예외는 아니다. 국립국어원에서 올해부터 시작하는 말뭉치 구축 사업은 바로 이러한 요구에 따른 것이다. 특히 국어원에서는 양적으로 많이 구축하는 것에 더하여, 정제되고 정밀히 분석된 말뭉치를 구축함으로써 이후 한국어 말뭉치 구축의 표본을 제공하려고 한다. 잘 정비된 한국어 말뭉치가 우리나라 미래 사업 발전에 기여할 수 있기를 기대해 본다.

이운영 국립국어원 학예연구관

인기 기사

web_cdn 저작권자 © 한국일보 무단전재 및 재배포 금지

정치 최신기사