읽는 재미의 발견

새로워진 한국일보로그인/회원가입

  • 관심과 취향에 맞게 내맘대로 메인 뉴스 설정
  • 구독한 콘텐츠는 마이페이지에서 한번에 모아보기
  • 속보, 단독은 물론 관심기사와 활동내역까지 알림
자세히보기
알림
알림
  • 알림이 없습니다

한국어 학습자 말뭉치

입력
2023.05.26 04:30
25면
0 0
모두의 말뭉치 화면 캡처

모두의 말뭉치 화면 캡처

요즘 어딜 가나 '챗지피티(Chat GPT)'가 화두이다. 말뭉치(corpus)는 챗지피티의 기반이 되는 것으로, 컴퓨터로 가공, 처리하고 분석할 수 있도록 만든 언어 자료 모음을 말한다. 그중에서도 외국인 한국어 학습자가 한국어로 쓰고 말한 자료를 데이터화한 것을 한국어 학습자 말뭉치라고 한다.

국립국어원에서는 2015년부터 한국어 학습자 말뭉치를 구축해 오고 있는데, 현재까지 143개국 95개 언어권의 자료를 수집하여 620만 어절 이상의 말뭉치를 구축하였다. 말뭉치는 학습자의 언어권별로, 학습자의 한국어 능력 수준별로 살펴볼 수 있다.

이러한 학습자 말뭉치로는 한국어 학습자의 언어 사용 양상이나 오류 유형을 파악할 수 있다. 예를 들어 학습자의 언어권별로 가장 많이 사용하는 어휘는 무엇인지, 중급 학습자가 범하는 오류 유형은 어떤 것인지를 파악할 수 있는 것이다.

학습자 말뭉치 검색 결과를 살펴보면 "저는 수영을 할 수 없어서 수영을 하지 않았어요"라는 문장이 있다. 앞뒤 맥락을 보면 수영을 원래 하지 못해서 못 했다는 것인데, 수영을 할 수는 있지만 어떤 이유로 인해 수영을 자의적으로 하지 않은 것으로도 읽힐 수 있다. 오류로 보기는 어려운 문장이지만 모국어 화자라면 어색하게 느낄 수 있는 문장이다. 이러한 양상이 특정 급수나 특정 언어권 학습자 말뭉치에서 자주 보인다면 해당 급수, 언어권 교재를 개발할 때 학습 자료로 넣어 활용할 수 있다.

한국어 학습자 말뭉치는 대규모 학습자 자료를 바탕으로 한국어 교육을 더욱 체계적이고 과학적으로 발전시켜 나가는 데 필요한 밑거름이다.

이윤미 국립국어원 학예연구사

기사 URL이 복사되었습니다.

세상을 보는 균형, 한국일보Copyright ⓒ Hankookilbo 신문 구독신청

LIVE ISSUE

기사 URL이 복사되었습니다.

댓글0

0 / 250
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.