[新경제가 희망이다]음성 데이터에 목마른 국내 기업...음성 합성 서비스 본격화

등록 2019.01.02 07:29:00수정 2019.01.14 10:14:39

데이터 수집 위해 AI 탑재 기기 확대...음성 인식 기술 확보 나서

음성 합성 서비스 출시...향후 전자책·뉴스 등 서비스에 확대

【서울=뉴시스】이지수 삼성전자 무선사업부 AI전략담당 상무가 20일 서울 강남구 코엑스 인터콘티넨탈 호텔에서 열린 '삼성 빅스비 개발자 데이'에서 개발자 대상으로 연설을 진행하고 있다. 2018.11.20 (사진 = 삼성전자 제공) photo@newsis.com

【서울=뉴시스】이지수 삼성전자 무선사업부 AI전략담당 상무가 20일 서울 강남구 코엑스 인터콘티넨탈 호텔에서 열린 '삼성 빅스비 개발자 데이'에서 개발자 대상으로 연설을 진행하고 있다. 2018.11.20 (사진 = 삼성전자 제공) [email protected]

【서울=뉴시스】이종희 기자 = 국내 기업들은 인공지능(AI) 강화를 위해 음성 데이터 수집에 열을 올리고 있다. AI 탑재 기기를 확장하는 한편, 음성 인식 관련 기술 확보에 공을 들이고 있다.

ICT(정보통신기술) 기업을 중심으로 음성 데이터에 기반한 서비스도 출시되고 있다. 현재는 유명인의 목소리를 차용한 서비스가 주를 이루고 있지만, 앞으로 이같은 기술을 바탕으로 다양한 음성 합성 서비스가 출시될 전망이다.

국내 전자업계를 선도하는 삼성전자와 LG전자는 자사 AI를 강화하기 위해 음성 데이터를 확보에 매진하고 있다. 이를 위해 자사 AI 탑재 기기를 기존 스마트폰 등에서 가전으로 확대했다. 이에 더해 음성 인식 기술 개발과 적용에 힘쓰고 있다.

삼성전자는 인공지능(AI) 플랫폼 '빅스비(Bixby)' 확대 계획을 발표했다. 빅스비를 오픈 플랫폼으로 개방해 타사 디바이스까지 참여시킨다는 전략이다. 이를 통해 2020년에는 수십억대에 이르는 가전제품, IT 기기에서 빅스비 플랫폼을 탑재한 제품을 일상생활에서 손쉽게 만나 볼 수 있게 된다.

삼성전자는 스마트싱스를 통해 삼성의 사물인터넷(IoT) 제품을 간편하게 연결·제어하도록 하며, 이를 다시 빅스비로 통합 제어하는 밑그림을 그려 나가고 있다.

삼성전자는 2020년까지 기존 스마트폰과 태블릿 등 모바일 사용 환경에 한정된 빅스비를 가전제품 등 삼성전자 전 제품으로 확대할 계획이다. 또 다른 회사의 제품이라도 스마트싱스로 연동해 빅스비를 탑재할 수 있는 환경을 조성해 나갈 방침이다.

삼성전자는 AI 기반 인터렉션은 음성인식에 방점이 찍혀있다고 분석했다. 최근 빅스비를 통한 음성인식 기술은 가전 분야에도 빠르게 확산되고 있다. 에어컨의 경우, 리모컨 대신 빅스비를 통해 제어하는 사용자의 비중이 80%에 이르는 것으로 파악하고 있다.

LG전자도 지난해 AI 브랜드 '씽큐(ThinQ)'를 본격적으로 선보이며 스마트홈 생태계로 확장에 나섰다.

LG전자는 AI 플랫폼 시장에서 자사가 보유하고 있는 가전, TV 등의 다양한 제품에서 나오는 데이터를 바탕으로 특정 분야에서 강점을 드러내겠다는 그림을 그리고 있다.

이를 위해 ▲오픈 플랫폼 ▲오픈 파트너십 ▲오픈 커넥티비티 등 3대 개방형 전략을 기반으로 인공지능 생태계 범위를 지속 확장하고 있다.

오픈 플랫폼으로 가면서 나머지 부족한 분야는 구글 등 타 기업이 제공하는 서비스로 채우겠다는 의미다. 독자 개발 AI 기술뿐 아니라 글로벌 기업들의 기술도 적극 활용해 사용자 입장에서 최적인 융복합 솔루션을 제공하겠다는 것이다.

실제로 LG전자는 현재 구글, 아마존, 네이버 등 다양한 국내외 기업들과 파트너십을 맺고 AI 분야에서 협업을 강화하고 있다.

LG전자는 원거리 음성인식 기술을 스마트폰 'G7 씽큐'에 적용하기도 했다. 최대 5m 밖에 있는 사람의 목소리를 인식하는 기술로, 공항로봇이나 가전 제품에 주로 탑재됐다.

[新경제가 희망이다]음성 데이터에 목마른 국내 기업...음성 합성 서비스 본격화

ICT 기업은 음성 데이터에 기반한 실제 서비스를 출시해 주목을 받고 있다. 음성 합성 서비스는 자사 AI 스피커의 응답을 대체하는데 그치고 있지만, 향후 전자책·뉴스 등 다양한 서비스에 적용이 가능해질 것으로 보인다.

KT는 특정 인물의 목소리로 음성을 합성할 수 있는 '개인화 음성합성(P-TTS·Personalized-Text To Speech)기술' 상용화에 나섰다. 앞서 자사의 AI 스피커인 기가지니에 이 기술을 적용한 '박명수를 이겨라' 퀴즈 게임을 출시한 바 있다.

P-TTS 기술은 딥러닝 기술을 이용해 며칠간 수집한 음성 데이터만으로 특정 인물의 목소리를 합성해 낼 수 있다. 이 기술을 활용하면 단순히 문장을 발음하는 수준을 넘어 개인별 발화 패턴이나 억양까지 학습해 사람처럼 자연스럽게 말하는 것이 가능하다.

네이버는 인공지능 플랫폼 클로바(Clova)가 탑재된 스마트 스피커와 클로바앱에서 배우 유인나 씨의 목소리를 통해 다양한 서비스를 제공한다.

네이버는 자체 연구개발한 음성합성기술 nVoice의 HDTS 기술을 활용해 이 서비스를 출시했다. 단순히 녹음한 음원을 제공하는 것이 아닌 사람의 목소리와 가까운 합성음을 재현해 내는 방식이다.

이를 위해 유인나 씨의 목소리 4시간 분량의 음성 데이터를 활용했다. 일부만을 활용해 든 합성음을 유인나 씨의 실제 음성과 비슷한 억양과 톤을 제공한다는 설명이다.

업계 관계자는 "글로벌 대기업은 이미 음성합성 기술을 활용한 서비스를 내놓고 있다"며 "국내 기업들도 기존 기술 대비 필요한 시간과 데이터를 줄이는 기술을 확보해 나가고 있는 만큼 차후 본격적인 경쟁이 펼쳐질 것으로 예상된다"고 말했다.

[email protected]