top of page

사람의 목소리가 아니라구요?

Editor. 황금별(LUNA) Yeoreum


안녕하세요. 에디터 루나 입니다. 오늘의 주제는, 글자를 목소리로 바꾸는 마법에 대한 이야기 입니다.

D I S C O V E R Y

우리는 지금껏 수많은 글을 읽어 왔지만, 이제는 글을 듣는 시대로 향하고 있습니다.



1889.04.29 - 1951.04.29, 세계 최고의 언어철학자, 루트비히 요제프 요한 비트겐슈타인


INTRO

"나의 언어의 한계는 나의 세계의 한계를 의미한다."

- 루트비히 요제프 요한 비트겐슈타인 -

언어는 인류 역사에게 가장 오랫동안 활용된 소통의 매개체입니다. 거의 인류의 모든 순간, 글과 말이 활용 되었다고 볼 수 있죠. 그야말로 우리의 역사는 글과 말의 대서사시라고 보아도 무방합니다.

우리의 생활은 글과 말이 혼용되어 이루어져 있으나, 우리가 접하게 되는 역사적 사실 대부분은 말이 아닌 글로써 전해집니다. 그것은 기록이 종이와 펜으로 이루어졌기 때문인데요. 비교적 최근에서야 녹음과 미디어의 기술이 발달하였고, 여전히 전문적인 영역으로 일반인들이 활용하기에는 어려움이 있는 것이 사실입니다. 그래서 현재에도 여전히 글이 기록의 대부분을 차지하죠.

읽는 것 보다는 듣는 것이 편하고, 글 보다는 말이 더욱 생생함을 전달해 줌에도 말입니다.


21세기 기술의 꽃, 인공지능


TTS

우리는 빠른 변화 속에 살고 있습니다. 모든 분야에서 급격한 발전이 이루어지고 다양한 분야들이 하나로 합쳐지며, 통섭이 이루어지는 정상에서는 전환의 급물살이 휘몰아 치고 있죠. 기록의 형태 역시 그 전환을 피해갈 순 없습니다.

오늘 소개해드릴 주인공은 TTS, Text To Speech 입니다. 인공지능 분야에는 "대상 To 대상" 형태의 기술이 쏟아지고 있습니다. 그 중 가장 대표적인 것이 바로 TTS인데요. 말 그대로 텍스트를 입력하여 사람의 음성을 구현하는 기술입니다. 그 시도의 실마리는 컴퓨터가 발명된 50년 전부터 찾아볼 수 있는데요. 사람의 입술이나 혀 등의 음성기관을 시뮬레이션하는 Airticulatory Synthesis, 목소리에 필터링을 더해 유사한 톤을 구현하는 Formant Synthesis 등이 있습니다. 특히 온갖 종류의 음성 조각을 연결, 목소리를 구현하는 Concatenative Synthesis는 우리의 생활 속 네비게이션, 콜 서비스 등에 자주 등장합니다.

지금까지의 컴퓨터 음성기술은 사람의 음성이라기에는 그 소리가 어색하여, 듣는 사람에게 단순히 정보를 전달하는 수준에 머물러 있었습니다. 그러나 인공지능, 즉 뉴럴네트워크로 구현된 TTS는 기계음과 사람의 음성을 구분할 수 없는 수준을 구현하죠. 그래서 그 사용이 책을 읽어 준다거나, 나래이션을 대체하는 등 그 영역을 점차 확대해가고 있습니다.


TTS를 활용한 오디오 콘텐츠 스튜디오, 여름


사람의 목소리가 아니라구요?

최근에는 오디오북이 온전히 TTS의 음성으로 만들어진 사례도 있습니다. 마치 성우의 목소리와 같은 생생함은 그 사실을 알기 전까지는 그 주체를 구별하기 힘든 수준입니다. 정보의 전달은 물론, 감동까지 밀려오는데요. 이렇게 고도로 발전한 TTS는 전문적인 능력을 갖춘 성우와 배우만이 할 수 있던 분야를 대체하고 있습니다.

오디오북, 유튜버, 버츄얼 인플루언서의 목소리와 노래 등 활용분야가 빠르게 넓어지고 있습니다. 아마도 몇몇의 콘텐츠는 "이 목소리는 TTS가 녹음한 목소리야"라는 사실을 듣기 전까지는 모두가 그냥 모르고 지나친 경우도 있을 듯 합니다.


애플의 인공지능 스피커, 홈팟


누구나 글을 말로 기록하는 시대

스마트폰으로 누군가와 메세지를 주고 받다가 그 답답함에 전화를 걸어본 경험은 누구나 있을 겁니다. 그것은 우리의 소통이 글보다는 말에 더욱 큰 힘을 지니고 있음을 뜻하는지도 모릅니다. 특히 소리로 이루어진 말은 우리가 다른 무언가를 하면서도 동시에 정보와 내용을 전달해 주는 큰 장점도 있습니다. 이렇듯 우리의 기록이 글과 더불어 말로서 이루어짐은 누구에게나 환영받을 수 있는 일이 아닐까요?

언어를 말로서 기록하는 것에 아직은 조금의 장벽이 남아 있음은 사실입니다. 그것을 시도해본 사람들은 끊어읽기 보정의 번거로움과 여전히 보정을 필요로 하는 인공지능 음성의 어색함을 잘 알고 있을 겁니다. 그러나 향후 5년, 10년 뒤 우리는 읽는 것보다 듣는 것에 더욱 익숙한 시대, 즉 누구나 글을 말로 기록하는 시대에 접어들지도 모릅니다. 그리고 새로운 기술들이 그러했듯이, 시간이 지난 후에는 TTS가 매우 다양한 창조의 중심이 될 수 있을지는 아무도 모르는 일입니다.

Yeoreum의 DISCOVERY는 영감을 불어 넣는 신선한 바람입니다.

コメント


bottom of page