한국어 학습자 말뭉치

모두의 말뭉치 화면 캡처

요즘 어딜 가나 '챗지피티(Chat GPT)'가 화두이다. 말뭉치(corpus)는 챗지피티의 기반이 되는 것으로, 컴퓨터로 가공, 처리하고 분석할 수 있도록 만든 언어 자료 모음을 말한다. 그중에서도 외국인 한국어 학습자가 한국어로 쓰고 말한 자료를 데이터화한 것을 한국어 학습자 말뭉치라고 한다.

국립국어원에서는 2015년부터 한국어 학습자 말뭉치를 구축해 오고 있는데, 현재까지 143개국 95개 언어권의 자료를 수집하여 620만 어절 이상의 말뭉치를 구축하였다. 말뭉치는 학습자의 언어권별로, 학습자의 한국어 능력 수준별로 살펴볼 수 있다.

이러한 학습자 말뭉치로는 한국어 학습자의 언어 사용 양상이나 오류 유형을 파악할 수 있다. 예를 들어 학습자의 언어권별로 가장 많이 사용하는 어휘는 무엇인지, 중급 학습자가 범하는 오류 유형은 어떤 것인지를 파악할 수 있는 것이다.

학습자 말뭉치 검색 결과를 살펴보면 "저는 수영을 할 수 없어서 수영을 하지 않았어요"라는 문장이 있다. 앞뒤 맥락을 보면 수영을 원래 하지 못해서 못 했다는 것인데, 수영을 할 수는 있지만 어떤 이유로 인해 수영을 자의적으로 하지 않은 것으로도 읽힐 수 있다. 오류로 보기는 어려운 문장이지만 모국어 화자라면 어색하게 느낄 수 있는 문장이다. 이러한 양상이 특정 급수나 특정 언어권 학습자 말뭉치에서 자주 보인다면 해당 급수, 언어권 교재를 개발할 때 학습 자료로 넣어 활용할 수 있다.

한국어 학습자 말뭉치는 대규모 학습자 자료를 바탕으로 한국어 교육을 더욱 체계적이고 과학적으로 발전시켜 나가는 데 필요한 밑거름이다.

이윤미 국립국어원 학예연구사

한국어 학습자 말뭉치

당신이 관심 있을 만한 이슈

LIVE ISSUE

댓글0

한국어 학습자 말뭉치

이 기사와 관련된 기사

당신이 관심 있을 만한 이슈

오피니언 많이 본 뉴스

LIVE ISSUE

댓글0

한국어 학습자 말뭉치

보내는 분