VOICEPEAK

VOICEPEAK의 Syllaflow 엔진은 딥러닝 신경망을 기반으로 자연스러운 음성을 생성한다.

출처: Colored neural network — Wikimedia Commons · CC BY-SA 3.0

VOICEPEAK는 일본의 AH-Software(AHS)가 Dreamtonics와 공동 개발한 AI 기반 텍스트 음성 변환(TTS) 소프트웨어다.^[gigazine] 2022년 2월 17일 발표되어 같은 해 3월 11일 정식 출시되었으며, Dreamtonics가 독자 개발한 AI 음성합성 엔진 Syllaflow를 탑재해 인간의 목소리와 구별하기 어려운 자연스러운 발화를 구현한다. Windows, macOS, Linux를 모두 지원하며, 기쁨·분노·슬픔·평온 등 감정 파라미터를 조절해 다양한 표현의 음성을 생성할 수 있다. VOICEROID 시리즈가 별도 상업용 라이선스를 요구했던 것과 달리, VOICEPEAK는 기본 구매만으로 상업적 이용이 허용된다는 점이 큰 특징이다.^[eula]

1. 개발 배경과 Syllaflow 엔진

Dreamtonics는 도쿄에 본사를 둔 AI 음성 기술 기업으로, Synthesizer V 노래 음성합성 소프트웨어의 개발사이기도 하다. VOICEPEAK는 Dreamtonics의 딥러닝 기반 음성합성 기술과 AH-Software의 캐릭터 보이스 콘텐츠 유통 노하우를 결합한 협업 제품이다.

Syllaflow 엔진은 신경망(neural network)을 활용한 파형 생성 방식을 채택하여 기존 연결합성(concatenative synthesis) 방식보다 훨씬 자연스러운 음성을 만들어낸다.^[fandom] 주요 특징은 다음과 같다.

감정 파라미터: 기쁨(Joy), 분노(Angry), 슬픔(Sad), 평온(Normal) 네 가지 감정축을 슬라이더로 조절할 수 있다.
속도·음높이 조정: 발화 속도와 피치를 실시간으로 조정해 원하는 톤을 구현한다.
멀티플랫폼: Windows, macOS, Linux 세 플랫폼에서 동일한 품질로 동작한다.
외부 연동: Node.js 기반의 MCP(Model Context Protocol) 서버 등 서드파티 도구를 통해 Claude Desktop 같은 AI 클라이언트와 연동할 수 있다.^[mcp]

2. 제품 구성

VOICEPEAK 제품군은 크게 나레이터 시리즈와 캐릭터 시리즈로 나뉜다.

2.1 나레이터 시리즈

나레이터 시리즈는 특정 캐릭터 일러스트 없이 비즈니스 용도에 최적화된 보이스를 제공한다.^[ondoku] 대표 패키지는 상업이용 가능 6 나레이터 세트로, 여성 3종·남성 3종·소녀 1종으로 구성되며 출시 당시 가격은 19,800엔(세금 포함)이었다. 확장판인 7 나레이터 세트는 여성 3종·남성 4종·소년 1종을 포함한다. 동영상 내레이션, 매장 안내 방송, 교육 콘텐츠 등 비즈니스 목적에 적합하도록 설계되어 있다.

2.2 캐릭터 시리즈

캐릭터 시리즈는 개성 있는 캐릭터 비주얼이 설정된 보이스 제품군이다. AH-Software 오리지널 캐릭터뿐 아니라 VOICEROID, CeVIO AI, 도호쿠 프로젝트(東北ずん子 프로젝트) 등 기존 음성합성 플랫폼에서 활동하던 캐릭터들도 다수 포함된다. 주요 화자는 다음과 같다.

각 캐릭터 패키지에는 남성 캐릭터 보너스 보이스 후리모멘(フリモメン)이 기본 동봉된다(일부 제품 제외). AHS 이외의 기업도 Syllaflow 엔진을 이용해 자체 캐릭터 TTS 소프트웨어를 출시하고 있으며, Musical Isotope Project의 오토마치 우나(音街ウナ) 등이 대표적인 예다.

3. 상업적 이용 정책

VOICEPEAK는 별도 상업용 라이선스 구매 없이 기본 패키지만으로 상업적 이용이 허용된다는 점에서 VOICEROID 계열 제품과 크게 다르다.^[eula] AH-Software의 EULA에 따르면 다음 사항이 적용된다.

허용: VOICEPEAK로 생성한 합성 음성을 유상·무상 콘텐츠에 자유롭게 활용 가능.
조건: 소프트웨어 자체를 제3자 제품에 내장하여 배포하려면 AH-Software에 사전 문의 필요.
금지: AHS 또는 제3자의 저작권을 침해하는 행위, 제품 내 정보 위·변조.
캐릭터 시리즈 특칙: 캐릭터 시리즈의 경우 해당 제품에 첨부된 개별 라이선스가 우선 적용됨.
언어 우선순위: EULA 영문판은 일본어 원문의 보조 문서이며, 내용이 상충할 경우 일본어 원문이 우선함.

이 정책 덕분에 YouTube 등 영상 플랫폼의 수익화 콘텐츠, 상업 광고 나레이션, 게임 음성 등 폭넓은 용도에 활용할 수 있다.

4. VOICEROID·CeVIO AI와의 비교

VOICEPEAK는 AH-Software가 관여한 세 가지 주요 음성합성 플랫폼 중 가장 최신 세대에 해당한다.^[ondoku]

AH-Software는 2022년 VOICEPEAK 출시 이후 신규 VOICEROID 화자를 더 이상 출시하지 않겠다고 발표하였으며, 기존 VOICEROID 인기 캐릭터들은 A.I.VOICE 또는 VOICEPEAK 엔진으로 이식되는 흐름을 보이고 있다. CeVIO AI와 비교할 때 VOICEPEAK는 조정 없이도 즉시 자연스러운 결과물을 얻을 수 있어 진입 장벽이 낮지만, 세밀한 음절 단위 편집은 CeVIO AI 쪽이 더 유연하다는 평가가 있다.

5. 관련 문서

Synthesizer V — Dreamtonics 개발 노래 음성합성 소프트웨어
VOICEROID — AH-Software 이전 세대 TTS 플랫폼
카사네 테토 — UTAU 출신, VOICEPEAK 화자로도 이식된 인기 캐릭터
보컬로이드 — 노래 음성합성의 대표적 선행 플랫폼

6. 인용 및 각주

^[gigazine] GIGAZINE, "Review of commercially available reading software 'VOICE PEAK' that AI reads out sentences emotionally with 7 types of voices" (2022년 2월 27일). Ggigazine.net(새 탭에서 열림)

^[eula] AH-Software, VOICEPEAK End-User License Agreement. Wwww.ah-soft.com(새 탭에서 열림)

^[fandom] "VOICEPEAK", Vocal Synthesizer Wiki (Fandom). Vvocalsynth.fandom.com(새 탭에서 열림)

^[ondoku] Ondoku, "What is the speech synthesis software VOICEPEAK? Detailed explanation of features and commercial use." Oondoku3.com(새 탭에서 열림)

^[mcp] k2wanko, VOICEPEAK MCP Server (GitHub). Ggithub.com(새 탭에서 열림)