thebell

전체기사

[NC AI를 움직이는 사람들]조훈영 실장, 불모지서 AI '꽃' 야구 중계 만들다⑤카이스트·LG전자기술원 출신…게임 물론 야구 중계 등 응용 분야 다양

서하나 기자공개 2020-12-18 07:59:03

[편집자주]

인공지능(AI)과 인간이 공존하는 세상이 다가왔다. 얼마전만 해도 AI 투자는 직접 돈을 버는 것과 거리가 멀단 인식이 강했지만 어느덧 많은 산업에서 AI를 떼놓고는 미래를 이야기하기 어려울 정도다. 엔씨소프트는 2011년부터 전문 연구조직을 꾸려 AI 기술 개발에 매진해왔다. 현재는 전문 연구 인력만 200명에 이를 만큼 커졌다. 더벨이 NC AI 조직을 움직이는 사람들을 조명해본다.

이 기사는 2020년 12월 16일 07:19 thebell 에 표출된 기사입니다.

2019년 6월 엔씨 사내 곳곳에선 김영하 작가의 목소리가 들렸다. 무려 한 달 동안이나 저서 '여행의 이유' 한 구절을 읽어주거나 새로운 책을 추천하며 감동을 안겼다. 뒤늦게 이 목소리의 정체가 김 작가의 실제 목소리를 합성한 AI 음성이었음이 밝혀지자 많은 이들이 놀라워했다. 스피치 AI 랩이 한창 연구 중이던 음성합성 기술을 구성원에게 재미있게 소개하기 위한 이벤트였다.

일상 곳곳에서 음성을 통해 인공지능(AI) 스피커나 로봇에 명령을 내리는 일이 당연해지고 있다. 버튼을 조작하거나 터치하지 않고도 목소리만으로 명령을 내릴 수 있다는 편리성이 우리의 삶을 크게 바꿔놓고 있다.

엔씨소프트 AI 센터 산하 스피치(Speech) AI랩은 바로 이런 음성인식 및 음성합성 기술을 연구한다. 조훈영 실장(사진)은 2016년 음성인식 기술의 불모지던 국내에서 새 기술의 가능성과 잠재력에 대한 강한 믿음으로 연구를 시작했다. 박사급 인력 2명에서 시작한 스피치 AI랩은 현재 국내외 최고 수준의 석박사 연구원으로 구성된 5개 팀으로 성장했다.


얼마 전만해도 기계를 조작하기 위해선 버튼을 누르거나 터치하는 일이 당연했지만, 지금은 음성만으로 명령을 내리는 일이 꽤 익숙해졌다. 게임도 비슷한 변화를 겪었다. 모바일 대규모다중접속역할수행게임(MMORPG)이 인기를 끌자 이용자간 음성채팅 사용이 빈번해졌다.

게임 내 이런 변화를 일찌감치 포착한 엔씨는 2016년 음성 관련 AI 기술을 전문적으로 연구하기 위해 스피치 AI랩을 설립했다. 음성 AI 분야는 국내에서 전통적으로 전문가 수가 매우 제한적인 분야로 꼽히는 만큼 발 빠르게 움직였다. 조 실장을 비롯해 국내외 기업, 정부출연연구소에서 오랜 기간 음성기술을 연구해온 전문가와 각 대학 주요 음성연구실 석박사 전공자 등이 스피치 랩 리더를 맡게 된 비결이다.

조 실장은 카이스트 전산학과에서 학사 학위와 음성인식 분야 석사 및 박사 학위를 받았다. 졸업 직후 2003년부터 2004년까지 약 1년간 미국 캘리포니아대학교 샌디에고 캠퍼스(UCSD)에서 뉴럴컴퓨팅연구소에 몸담았다.

이후 LG전자기술원에서 모바일 멀티미디어 연구소 선임 연구원(2004년~2006년) 한국전자통신연구원 음성언어정보연구센터 선임연구원(2006년~2012년) 등으로 재직하며 AI 분야 전문성을 쌓았다. 2012년 KT-엔써즈 이사 겸 연구소장, 2015년 비글컴퍼니 이사 겸 최고기술책임자(CTO) 등을 거쳐 2016년 1월 엔씨에 합류했다.

2019년 5월 14일 김영하 작가가 엔씨에 방문해 사운드 실에서 본인이 쓴 원고와 문장 몇 개를 읽었다. 그렇게 녹음된 약 10분 정도의 음성 데이터로 김영하 작가의 딥러닝 합성 모델을 만들었다. 출처 : 엔씨 블로그.

조 실장이 이끄는 스피치 AI랩의 집중 연구 분야는 바로 음성인식과 음성합성 기술이다. 그중 △사용자가 누구인지 알아보고 △말의 내용과 감정을 인식하고 △자연스럽고 다양한 톤의 음성으로 응답하는 것 △사용자의 주변 음향 환경을 이해하는 것 등이 음성인식 기술의 4대 과제로 꼽힌다.

스피치 AI랩은 게임 도메인 최고의 음성 인식기를 만들고 이용자에게 최상의 게임 경험을 선사하겠단 목표 아래 연구를 진행하고 있다. 음성인식 기술은 처음부터 완벽하지 않다. 일단 만들어진 기술이 계속해서 학습 효과를 발휘해 정교해지는 방식이다.

조 실장은 음성인식 분야에선 현재 '고성능 온 디바이스 보이스 커맨드 기술'의 서비스 제공을 목표로 내부테스트를 진행하고 있다. 이 기술은 음성인식 서버 없이도 음성 인식이 가능하도록 하는 기술이다. 모바일 게임 텍스트 채팅 메시지를 편리하게 입력하기 위한 한·영 보이스 딕테이션 기술도 개발 중이다. 한·영 발화 검증 기술을 통해 게임 개발 단계에서 생성되는 수만 건의 성우 녹음 데이터의 일치도를 자동으로 검증하는 서비스 등의 개발도 마쳤다.

음성합성 분야에서는 글로벌 AI 기술 주류를 이루는 종단간 문자음성합성(End-to-End TTS)에 매진하고 있다. 스피치 AI랩 산하 음성합성팀은 최소 20분에서 1시간 분량의 개인 음성 데이터만으로 자연스러운 음성을 생성할 수 있는 음성 합성 기술을 보유하고 있다.

이 기술은 이미 사내에서 AI 방송, 게임 내 NPC 대사 생성, 게임 튜토리얼 영상 제작 등 여러 분야에 적용 중이다. 엔씨가 준비 중인 케이팝 엔터테인먼트 플랫폼 '유니버스(UNIVERSE)' 서비스에도 이 기술이 적용된다. 실제 아티스트가 가진 목소리 톤, 발화 스타일 등이 유사한 아티스트 AI 합성음을 제공하는 방식이다.

스피치 AI랩에서 자체 개발한 뉴럴 보코더(Neural Vocoder) 'VocGAN'은 기존의 뉴럴 보코더의 성능을 뛰어넘어 실제 음성과 구분하기 어려운 수준의 고품질 음성을 빠르게 생성할 수 있는 기술이다. 이 기술은 10월 음성 인식 및 합성 분야에서 가장 권위있는 국제학회 인터스피치 2020에 소개됐다.

엔씨가 블로그를 통해 소개한 중계체 발화 스타일 음성합성 기술.

음성합성 기술의 꽃인 중계체 발화 스타일 개발은 스피치 AI랩의 가장 최근 성과다. 그동안 AI 기반 음성은 대부분 일반적으로 뉴스를 읽거나 안내하는 낭독체 방식으로 개발됐다. 반면 중계체의 경우 실제 경기 상황에 맞춰 역동적이고 다양한 감정을 더해야 해 개발의 난이도가 높다. 스피치 AI랩이 구현한 이 기술은 실제 스포츠 캐스터가 경기를 중계하는 느낌을 구현해 향후 야구는 물론 축구, 농구, e스포츠 등에서 경기 정보 전달과 해설 등에 활용이 가능할 것으로 보인다.

AI 시장의 규모는 지난해 9조원에서 2022년 112조원으로 성장할 것으로 전망된다. 이중에서도 음성 AI 기술의 잠재력은 더욱 무궁무진하다. 스마트폰 비서, 음성 구동 네비게이션, AI 스피커, 인공지능 로봇은 물론 보안, 통역, 금융 서비스 등 적용 분야가 광범위하다. 일찍부터 음성 관련 AI 기술의 잠재력을 발견한 스피치 AI랩의 행보에 더욱 관심이 쏠리는 까닭이다.
< 저작권자 ⓒ 자본시장 미디어 'thebell', 무단 전재, 재배포 및 AI학습 이용 금지 >

더벨 서비스 문의

02-724-4102

유료 서비스 안내
주)더벨 주소서울시 종로구 청계천로 41 영풍빌딩 5층, 6층대표/발행인성화용 편집인이진우 등록번호서울아00483
등록년월일2007.12.27 / 제호 : 더벨(thebell) 발행년월일2007.12.30청소년보호관리책임자김용관
문의TEL : 02-724-4100 / FAX : 02-724-4109서비스 문의 및 PC 초기화TEL : 02-724-4102기술 및 장애문의TEL : 02-724-4159

더벨의 모든 기사(콘텐트)는 저작권법의 보호를 받으며, 무단 전재 및 복사와 배포 등을 금지합니다.

copyright ⓒ thebell all rights reserved.