국립국어원(원장 이상규)이 1998년부터 추진해온 국어 정보화사업인 ‘21세기 세종계획’이 10년 만에 완료됐다. 이를 통해 소설 4,000권 분량인 2억 어절의 말뭉치(컴퓨터가 인식할 수 있도록 입력, 저장한 어절 묶음)가 구축됐다. 이는 91~94년 구축된 영국 국가 말뭉치의 1억어절보다도 많은 세계 최다 수준이다.
국립국어원은 “대규모 말뭉치 구축을 통해 컴퓨터를 이용한 정교한 기계 번역과 문서 요약, 맞춤법 교정 등이 가능해진다”고 설명했다.
또 언어 정보의 자동처리를 위해 컴퓨터가 인식할 수 있는 60만 어휘 규모의 전자사전도 개발됐다. 이 전자사전은 정보 검색과 텍스트의 분석과 산출, 자동번역, 다국어 사전 구축 또는 한국어 교육이나 순수 연구 등에 두루 활용될 수 있다. 이와 함께 한민족 언어 정보화 사업을 통해 남북한 언어 비교 자료, 방언 자료, 어휘 역사 자료 등이 구축됐으며 문자코드 표준화와 전문용어 정비, 글꼴 지원 등도 세종계획의 과제로서 추진됐다.
21세기 세종계획은 국어 연구 기반 마련과 우리말의 정보화, 세계화, 표준화라는 목표로 98년부터 총 150억원의 예산을 들여 추진된 국어 정보화사업으로 연간 200여명의 연구진이 참여했다.
남경욱 기자
기사 URL이 복사되었습니다.
댓글0