나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2024-04-03 19:14:47

Text to Speech

1. 개요2. 특징3. 종류 및 사이트
3.1. 대한민국3.2. 해외
4. 사용 사례

1. 개요

줄임말로는 TTS, 한국어로는 '음성합성()'이라 부른다. 보통 TTS라고 하면 이것을 의미한다. 컴퓨터의 프로그램을 통해 사람의 목소리를 구현해내는 것으로, 성우 없이도 거의 모든 단어와 문장의 음성을 쉽게 구할 수 있다. 하지만 사전녹음된 목소리 자료를 기반으로 쓰는 만큼 억양이 자연스럽지 못하다는 단점이 있다.

2. 특징

시각장애인의 접근성을 향상시키기 위해 개발되었다. 기사

해외에서는 리드스피커와 브라우저어라우드와 같이 웹기반 서비스 솔루션이 웹사이트를 읽어주는 TTS 프로그램으로 대중화되었다. 일본에서는 지방자치단체 홈페이지의 70% 이상이 TTS 음성서비스를 제공한다. 한국에선 다양한 TTS 프로그램 제공업체 중 웹톡스, 보이스몬과 같이 웹기반 서비스와 솔루션을 함께하는 프로그램들이 각광받는다.

VOCALOID(보컬로이드)와 비슷하다고 생각할 수 있다. 하지만 보컬로이드는 소리, 억양 하나하나를 유저가 직접 이어붙여서 만드므로 복잡하지만, TTS는 글자를 입력하면 쉽게 바로 음성으로 출력된다는 차이점이 있다. 물론 그만큼 TTS는 발음과 억양이 부자연스럽다는 단점도 있다. 보컬로이드의 경우는 가상의 목소리로 '노래'를 부르게 만드는 물건이라 음계와 박자까지 일일이 하나하나 맞춰야해서 복잡할 수밖에 없다. 일반적인 글자 낭독은 이렇게까지 할 필요가 없다는 차이점이 있어서 보컬로이드는 TTS와 별개로 보는 시각이 대부분이다. 물론 보컬로이드 역시 TTS와 음악을 합치는 발상에서 출발한 개념이기는 하다.

하지만 몇몇 TTS는 꽤나 자연스럽고 부드럽게 목소리를 출력한다. 알파고를 발표한 구글 딥마인드 산하의 WaveNet(웨이브넷)은 딥러닝 기반의 TTS 시스템으로, 연구를 거듭한 결과 성우가 직접 읽은 문장보다도 더욱 자연스러운 문장을 구사할 수 있게 되었다. 실제로 목소리를 비교해보면 어느 것이 성우의 목소리이고, 어느 것이 TTS인지 구별할 수 없을 정도이다. 심지어 별다른 입력 없이 무작위한 발음을 중얼거리게 만들 수도 있는데, 분명 이해할 수 없는 문장임에도 불구하고, 실제 사람의 중얼거림처럼 호흡과 간격이 매우 자연스럽다. 기사, 기사 2

단, 대부분 TTS는 개인 고객에게 제품을 팔지 않기 때문에, 개인이 TTS를 사용하려면 어둠의 경로에서 구해야 하는 경우가 대부분이다. 혹시나, 구매한다고 해도, 수천만원 이상을 호가한다.

TTS는 3가지 요소로 구성된다. 첫째가 SAPI라는 윈도우 구성요소, 둘째가 보이스 엔진, 셋째가 플레이어다. 비디오 플레이어에 비유하면 차례대로 SAPI는 운영체제 그 자체, 보이스 엔진은 코덱쯤, 플레이어는 말 그대로 플레이어이다. SAPI는 대체로 윈도우를 깔면 자동으로 깔려있다. 제어판을 뒤적거려본 유저라면 알 수 있는데, 제어판 → 접근성 → 접근성 센터 → 디스플레이가 없는 컴퓨터 사용에 들어가보면, 텍스트 음성 변환 이라는 항목이 있다. 이 창을 띄워보면 한 줄 문장을 작성하고 음성 선택을 하는 곳이 있는데, 바로 이것이 TTS의 기본 구성 원리다.

Microsoft Heami Desktop - Korean이라고 나와있을 텐데, 이것이 SAPI 5.1 버전용 보이스 엔진인 혜미다. 이 제어판 항목에서는 긴글을 입력하지 못하지만, 바로 플레이어들을 이용하여, 긴 단락들을 읽어줄 수 있는 것이다. 예시는 Windows 8.1 기준으로, Windows XP는 Microsoft Sam, Windows VistaWindows 7은 Microsoft Anna가 존재한다. Windows 10의 경우에는 Windows 8.1과 동일하지만, 다른 언어 입력기를 설치하면 음성 데이터와 언어팩도 같이 설치되기 때문에 쉽게 변경이 가능하다.

대부분 TTS 플레이어들 자체[1]는 프리웨어인 경우가 많고, 사실상 TTS의 핵심이라고 할 수 있는 엔진[2]이 유료로 판매되는 핵심 파일이다. 한국어 엔진 중 가장 유명한 게 Junwoo(준우)Yumi(유미)다. 기본으로 윈도우에 깔린 혜미 같은 엔진들은 매우 기계적이어서 많이 듣기에 부자연스럽기 때문에, 대부분 따로 엔진을 구해야 만족스러운 결과가 나온다.

플레이어로 쉽게 구할 수 있는 것은 판옵프리터(Panopreter), 발라볼카(Balabolka), 텍스트얼라우드(TextAloud) 등이 있다. 앞의 두 개는 프리웨어, 텍스트 얼라우드는 유료이다.

판옵프리터는 가장 프로그램이 가볍지만, 텍스트 분량이 너무 많으면 한꺼번에 읽을 수는 없다. 또한 중간부터 읽을 수가 없어서 항상 처음부터 읽어야 한다. 발라볼카의 장점은 자신의 PC에 깔린 엔진뿐만 아니라, 구글 번역기의 TTS엔진까지 사용해서 음성파일을 만들 수 있다는 것이다. 다만 프로그램이 무겁고, 굳이 음성파일을 만들지 않고 프로그램 내부에서 즉흥적으로 들을 경우, 문장 하나하나마다 앞부분의 음성이 약해지는 현상이 나타나 매우 듣기가 괴롭다. 마지막으로 텍스트 얼라우드는 프로그램도 무겁지 않고, 중간부터도 들을 수 있으며, 글의 맨 처음만 약해질 뿐 다른 곳은 다 그대로이다. 단점이라고는 유료라는 점뿐. 위 세 프로그램 모두 당연하게도 음성파일로 변환할 수 있다. 기본적으로 wav파일로 나오지만, 추가 설정을 통해 mp3로 바로 변환시켜줄 수도 있다.

한국어로 맞춰놓고 영어를 쓰면 콩글리시를 들어볼 수 있다. 마찬가지로 영어 이외의 언어로 설정하고 영어를 쓰면 해당 국가의 억양이 들어간 영어 음성이 나온다. TTS 프로그램 중 영어 음성 전문 더빙이 가능한 서비스는 타입캐스트이며, 이를 위한 외국인 인공지능 성우 캐릭터가 마련되어 있다.

감정과 음 높낮이, 길이도 조절하여 딥 러닝으로 합성가능한 TTS 프로그램도 나오기 시작했다. 기사

자신의 목소리로 TTS를 만들 수는 있지만 번거롭고 시간이 많이 걸리는 편이다. 링크

성우들의 일자리를 빼앗는 게 아니냐는 말이 있다. 이런 현상은 AI와 관련된 모든 분야에서 일어나는 일로서, 딱히 성우들만 그런 것은 아니다. 물론 이 TTS도 무에서 시작할 수는 없으니 목소리를 제공하고 로열티를 받는 등 여러 대안과 사회적 합의가 있을 수 있을 것이다. 실제로 성우가 연기한 목소리를 TTS화시키면 저작권자가 작품 이미지 손상을 심각하게 입었거나 계약 당사자에게로 향할 피해가 심할 거라 판단했을 경우 법적 권리를 행사할 수도 있다. IT 회사가 성우에게 음성 저작권 영구 양도를 요구하는 사례가 문제라는 성우계의 시각도 있는데 사실 비용을 지불하는 회사가 외주 결과물에 대해 저작권을 가져가는 것 자체가 잘못된 것은 전혀 아니다. 이미 많은 분야, 많은 기업에서 그렇게 하고 있다. 물론 꼭 가져가야 되는 것도 아니지만 말이다. 문제의 핵심은 계약서를 작성하지 않는 관행이나 계약 내용이 정형화되지 않은 것 같은 부분들이다. 이는 기업과 직능단체라는 이익집단간의 협상과 견제, 그리고 행정당국의 감독과 입법적 조치로서 해결할 일인 것이다.

일본에서는 니코니코동화를 시작으로 TTS 실황 플레이가 유행했다. vds로 닌텐독스를 플레이 할경우 몇몇 목소리를 들려주면 강아지들이 좋아하면서 달려온다. 북한의 김정은리춘희 목소리를 tts로 변환한것도 있다.

2018년에는 TTS로 성대모사까지 한다. 기사. 그 후 유튜브에서도 유명 유튜버의 목소리로 AI를 학습시켜 TTS로 변환한 패러디 영상이 가끔 올라온다. 예시

3. 종류 및 사이트

파일:상세 내용 아이콘.svg   자세한 내용은 분류:음성 합성 엔진 문서
번 문단을
부분을
참고하십시오.

3.1. 대한민국

가나다순, 서비스(회사명)으로 기재한다.

3.2. 해외

4. 사용 사례




파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는
문서의 r277
, 1번 문단
에서 가져왔습니다. 이전 역사 보러 가기
파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]
문서의 r277 (이전 역사)
문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)


[1] 용량이 30MB 정도이다.[2] 용량이 200~500MB 정도다[3] 문서와는 달리 엘더스크롤의 모드가 아니라 AI 툴이다.[4] 물론 스티븐 호킹이 워낙에 외향적이고 유쾌한 성격이라서, 이는 진정으로 불평하는 게 아니라 단순히 자신의 고급스런 용인발음이 안 나와서 간지가 안 산다는 뉘앙스의 개그다. 실제로는 대중들에게 이런 목소리로 널리 알려진 탓에, TTS로 나오는 미국 영어 음성을 제일 마음에 들어했다.