한국어 사투리 AI 데이터 대폭 개방...AI와 '프리토킹(Free Talking)', 얼마 남지 않았다

-과기부, AI 데이터댐 개방 공식 선언...한국어 방언 등 음성·자연어 39종 공개 -AI 방언 인식 기능 개선 고민하던 이통3사, AI 데이터 적극 활용할 전망 -AI 한국어 능력 개발 노력 계속돼...AI 한국어 능력 평가해주는 데이터셋까지 등장

2021-06-18     고명훈 기자
[사진=픽사베이]

“내일랑 비 와지크냐?”, “니 솔갈이 치지 마라”

같은 한국인이라도 알아듣기 어려운 지역 사투리를 이제는 AI가 알아듣고 반응한다.

소위 AI와 한국어로 자유롭게 대화하는 날이 머지않을 것으로 전망된다. 데이터 댐 뒤에 꽁꽁 싸매져 있던 한국어 방언 등 음성·자연어의 AI 학습용 데이터가 세상에 대폭 공개됐기 때문이다.

18일 과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 AI 기술 및 산업 발전의 촉진제가 될 인공지능 학습용 데이터 170종을 대중에게 공개한다고 밝히면서 데이터 댐 개방을 공식 선포했다.

공개될 170종의 데이터 중 한국어 방언과 외국어 말뭉치를 포함한 음성·자연어는 총 39종. AI 음성인식 기능 개발에 집중하고 있는 통신업계가 여기에 촉각을 곤두세우고 있다.

업계 관계자는 녹색경제신문에 “지역 사투리 데이터는 오랜 시간과 비용을 투자해야만 얻을 수 있는 데이터”라며, “사투리를 잘 인식하지 못했던 음성 기능 탑재 인공지능 서비스의 향후 행보에 활용도가 높을 것”이라고 기대감을 드러냈다.

과기부에 따르면 경상, 전라, 충청, 강원, 제주 등 5개 도의 방언이 수집된 발화 데이터는 개방하기 전 활용성을 검토한 결과 기존 서비스의 인식률이 12%나 확대됐다는 좋은 평가를 받았다.

통신업계에서는 이미 다양한 분야에 음성 기능 기반 AI를 적용하면서 서비스를 확대해 나가고 있다. 그러나 표준어가 아닌 지역 방언까지 모두 인식하기에는 어려움이 따라 늘 발목을 잡히기 마련이었다.

업계 관계자는 “AI의 한국어 음성인식 기능이 표준어를 기준으로 만들어지다 보니 종종 소비자들이 불만을 제기하거나 서비스 활용에 어려움이 따랐다”라며, “문제를 해결하고자 방언 인식 기능을 추가하려는 노력도 있지만 모든 지역의 방언 데이터를 모으는 게 쉽지는 않은 일이다”라고 전했다.

이번 한국어 방언 데이터 공개 소식이 업계에서 더 주목받는 이유다. 한국어 방언 발화 데이터는 오는 30일부터 ‘인공지능 허브’ 사이트에 공개될 예정이다.

이통3사 AI 한국어 방언 인식 기능, 어디까지 왔나?

KT의

그간 AI에 방언 인식 기능을 탑재하려는 시도는 꾸준히 있어 왔다.

KT의 경우 최근 광주광역시 서구에 AI 스피커를 활용한 취약계층 돌봄 서비스를 시범 적용하면서 전라도 사투리를 인식하는 AI 기능을 선보인 바 있다. “오매 죽겄당께”, “글제” 등 전라도 사투리로 말을 걸어도 AI 스피커 ‘지니’가 알아듣고 맞장구를 친다. KT 관계자는 “사투리 단어사전을 데이터베이스에 등록하고 AI가 다양한 사투리를 알아들을 수 있도록 노력하고 있으며 각 지자체와도 논의 중이다”라고 전했다.

SK텔레콤의 AI 스피커 ‘누구’와 LG유플러스에 탑재된 네이버의 ‘클로바’ 역시 사투리 인식능력 향상을 위해 분주히 달리고 있다.

SK텔레콤은 ‘누구’를 처음 출시할 때부터 기존 음성인식 기술에 사용자가 전용기기와 대화를 나누면 나눌수록 데이터가 쌓이는 ‘딥 러닝’을 접목하면서 사용자의 목소리 톤과 억양, 사투리까지 인식할 수 있는 기능을 강조했다. SK텔레콤에 따르면 이후에도 누구는 대화체 음성인식의 성능을 고도화하면서 사투리의 발성과 억양을 기억해 반영하는 수준까지 이르렀다.

네이버는 최근 사람과의 고차원적 대화 기능을 강조한 ‘하이퍼클로바’를 공개했다. 네이버에 따르면 하이퍼클로바에는 사투리 번역 작문 기능이 탑재돼 있어 경상도 사투리로 쓴 글을 전라도 사투리 버전으로 번역할 수 있다. 개그 프로그램의 소재로도 많이 사용됐던 사투리 번역을 이제는 AI가 하는 경지에 이른 것이다.

아울러, 하이퍼클로바는 질문을 받았을 때 대화 맥락을 이해하여 좀 더 높은 수준의 답을 주며 작문 시 글씨체를 가지각색으로 변경할 수도 있다.

“AI 한국어 능력 수준 궁금해? 그럼 시험 보면 되지”...AI 한국어 평가 데이터셋까지 등장

[사진=픽사베이]

음성인식 기능을 기반으로 한 AI의 한국어 능력이 어느 수준인지 파악할 수 있는 평가지표까지 탄생했다.

AI의 한국어 자연어이해 평가 데이터셋 ‘클루(KLUE)’다. AI 스타트업인 업스테이지의 주도하에 네이버와 구글, 카카오엔터프라이즈, KAIST 등 17개 민간과 기관이 팀을 꾸리고 국내 AI 전문가 31명이 참여해 만들었다.

업계에 따르면 클루는 AI가 한글 문장의 뜻과 주제를 잘 파악하는지, 비슷한 의미의 두 문장을 잘 구분해 내는지, 지문을 읽고 주어진 질문에 제대로 답할 수 있는지 등 8개의 언어 능력 항목을 평가한다.

특히, 일상생활에서 사용하는 한국어의 이해 능력을 평가한다는 점에서 향후 AI의 한국어 자연어처리 분야의 발전에 도움이 될 것으로 전망된다. 클루를 개발한 업스테이지의 한 AI 엔지니어는 “기존에 나온 영어 기반의 평가 데이터에 맞서 나온 한국어 데이터셋 기반의 클루는 수능시험처럼 공신력 있는 평가 기준을 제시해 한국어 AI 모델끼리 서로 경쟁하며 발전하는 데 이바지할 것”이라고 말했다.

클루는 국내 AI 기업 및 연구기관 등을 위해 벤치마크 개발에 쓰인 데이터를 민간과 모두 공유할 예정이라고 밝혔다.