23일 중국 저장성 우전에서 구글의 인공지능(AI) 알파고와 세계 최강 바둑기사 커제 9단이 대국을 하고 있다. 구글 제공

“이세돌 9단이 두는 참신한 수에 혼란해 하던 약점을 알파고는 이미 극복했다.”

‘알파고의 아버지’ 데미스 하사비스 딥마인드 최고경영자(CEO)는 23일 구글 인공지능(AI) 알파고와 중국 커제(柯潔ㆍ20) 9단의 대국 후 가진 기자회견에서 “알파고가 인간과 대국을 하는 이유는 약점을 찾기 위해서다”라면서 지난 1년 여간 알파고에 있었던 변화를 이같이 밝혔다.

알파고는 이세돌 9단과의 대결 이후 올 초 ‘마스터’라는 아이디로 프로 기사들과 온라인 바둑 대결을 펼친 바 있다. 성적은 60국 전승. 알파고는 자기 자신과 스스로 바둑을 두는 ‘셀프 대국’과 인간 바둑기사와의 대국을 병행하면서 서로 다른 학습 영역을 키워왔다는 게 하사비스 CEO의 설명이다. 그는 “사람과 대결하면서 변칙수 등에 대응하는 방법을 배웠다면 스스로 바둑을 두면서 승률을 계산하는 기량도 빠르게 키워가고 있다”고 강조했다. 구글 관계자는 “새롭게 업그레이드된 알파고는 여러 번에 걸친 ‘셀프 대국’ 내용을 스스로 훈련 데이터로 활용한다”고 덧붙였다.

구글은 이를 위해 실시간으로 데이터를 분석하고 연산하는 알파고의 ‘두뇌’부터 바꿨다. 기존 알파고는 각종 명령어를 동시에 처리하는 1,202개 중앙처리장치(CPU)와 176개 그래픽 프로세서 유닛(GPU)으로 구성된 수퍼컴퓨터를 기반으로 작동했다. 그러나 구글은 최근 AI 전용 프로세서인 텐서프로세서유닛(TPU)을 자체 개발해 알파고에 적용했다.

TPU는 설계단계부터 오로지 기계학습(머신러닝)을 위해 개발됐다. 다른 기능은 버리고 AI 연산과 예측에만 집중하는 TPU의 연산 성능은 최신 CPU보다 30~80배 높다는 게 구글의 설명이다. 가장 큰 특징은 미리 학습한 내용을 토대로 추론하는 데 그치지 않고 추론하면서 동시에 학습할 수 있다는 점이다. 어느 위치에 수를 뒀을 때 승률이 올라가는지 계산하는 시간이 대폭 줄기 때문에 짧은 시간 안에 더 많은 데이터를 기반으로 주어진 상황을 분석할 수도 있다. 또 분석 내용은 곧바로 알파고 두뇌로 흡수된다. 하사비스 CEO는 “지금의 알파고의 컴퓨팅 파워는 한국 이세돌 9단과 대국 시절 때보다 10배 이상 향상됐다”고 설명했다.

훈련 과정에서도 변화가 있었다. 알파고는 ‘지도학습’과 ‘강화학습’을 결합한 머신러닝 기법으로 학습한다. 시스템에 입력된 수십만 건의 기보를 공부하는 게 지도학습이라면 강화학습은 승률을 높일 수 있는 위치를 찾아 결정하는 과정을 배운다. 지난 1월 하사비스 CEO는 “인간의 기보를 참조하지 않고도 학습하는 알파고 2.0을 만들었다”고 밝힌 바 있다. 지도학습 없이 자체적인 강화학습만으로 기력을 높인다는 얘기다. 정형화돼 있지 않은 수로 알파고를 흔들려 했던 커제 9단의 전략이 통하지 않았던 점도 스스로 ‘참신한 수’를 만들어보면서 학습해 온 알파고의 ‘방어 가능 영역’ 안에 있었기 때문으로 분석된다.

전문가들도 알파고의 대국 운영 방식이 1년 전과 비교해 확연히 진화했다는 의견이다. 현장에서 대국을 직접 지켜본 김성룡 9단은 “지난해에는 당연한 수도 장고 끝에 두는 모습을 보였는데 올해는 시간을 자유롭게 활용하는 등 반응 속도가 훨씬 빨라진 것 같다”고 말했다. 그는 “알파고는 예전에는 좋지 않다고 여겨지던 수까지 승리로 이어갔다”며 “바둑 기사에게 새로운 수를 탐색하게 하는 알파고는 지난 1년 전 보다 월등히 수준이 높아진 게 사실”이라고 덧붙였다.

맹하경 기자 hkm07@hankookilbo.com

관련 기사

web_cdn 저작권자 © 한국일보 무단전재 및 재배포 금지

경제 최신기사