Synthesizer V

Synthesizer V(신세사이저 브이, 줄여서 SynthV 또는 SV)는 Dreamtonics Co., Ltd.가 개발한 노래 음성 합성 소프트웨어다. 2018년 8월 첫 공개 베타를 시작으로, 2020년 AI 엔진 도입, 2025년 3월 Studio 2 출시까지 버전을 거듭하면서 영어·일본어·만다린 중국어·광동어·스페인어·한국어를 지원하는 다국어 AI 보컬 플랫폼으로 성장했다.^[1]^[2] 보컬로이드나 UTAU와 달리, Synthesizer V는 연결 합성과 신경망 기반 합성을 결합해 사람 목소리에 가까운 자연스러운 발성을 로컬 환경에서 구현한다는 점에서 차별화된다.^[3]

1. 역사와 개발 배경

Synthesizer V의 출발점은 UTAU 리샘플러인 Moresampler다. Dreamtonics 창업자 Kanru Hua는 2015년 Moresampler 개발 경험과 Sinsy 음성 합성 엔진에서 얻은 영감을 바탕으로 독립형 노래 합성 엔진 구상을 시작했고, 2018년 8월 19일 베타 버전을 공개했다.^[4] 같은 해 12월에는 첫 번째 정식 편집기가 출시되었다.

2020년 7월에는 두 번째 세대 편집기인 Synthesizer V Studio가 등장했으며, 같은 해 12월 AI 엔진과 크로스링궐 합성(cross-lingual synthesis) 기능이 추가되면서 플랫폼의 성격이 크게 바뀌었다.^[2] 이후 AI 음성 데이터베이스가 표준 음성 데이터베이스를 빠르게 대체하기 시작했다.

2025년 3월 21일에는 Synthesizer V Studio 2(SV2)가 출시되었다. Studio 2는 렌더링 속도를 최대 300% 향상시키고 AI 리테이크 기능을 4가지 차원(피치, 음색, 타이밍, 전체)으로 세분화했으며, 한국어 지원을 새로 추가했다.^[1]

2. AI 음성 합성 기술

Synthesizer V의 핵심은 연결 합성(concatenative synthesis)과 신경망 기반 합성(neural network-based synthesis)의 혼합 구조다. 표준 음성 데이터베이스는 VOCALOID나 UTAU처럼 개별 음소를 녹음하고 이어 붙이는 방식을 사용하지만, AI 음성 데이터베이스는 딥러닝 모델로 학습한 보컬 표현을 생성하기 때문에 피치 전환, 호흡, 비브라토, 다이나믹스가 훨씬 자연스럽다.^[3]

주요 기술 특징은 다음과 같다.

크로스링궐 합성: Pro 버전에서는 어느 AI 음성이든 모국어 외의 지원 언어로 노래할 수 있다. 예를 들어 일본어 보컬이 영어나 한국어로 노래하는 것이 가능하다.^[1]
AI 리테이크: 동일한 구간에 대해 피치·음색·타이밍·전체 요소를 각각 다르게 생성한 여러 후보 중에서 선택할 수 있어, 사용자가 원하는 표현에 근접할 수 있다.^[1]
보컬 모드: 흉성, 벨팅, 브레시 등 다양한 보컬 모드를 다이나믹하게 혼합해 음색을 조절한다.
스마트 피치 컨트롤: 피아노 롤 편집과 별개로 음성 표현의 미세 피치를 자동·수동으로 조정할 수 있다.
로컬 처리: 구매 후 활성화된 음성은 서버에 데이터를 업로드하지 않고 로컬에서 렌더링된다.

편집 환경은 DAW 플러그인(VST3/AU/AAX)과 독립 실행형 애플리케이션을 모두 지원하며, Windows·macOS·Linux에서 작동한다.

3. 주요 보이스 라이브러리

Synthesizer V의 보이스 라이브러리는 개발사(Dreamtonics 자체 제작), 서드파티 레이블(AHS, Eclipsed Sounds, AUDIOLOGIE 등)로 나뉜다. 음성 제공자(성우 또는 가수)의 실제 목소리를 기반으로 제작되며, AI 음성 데이터베이스와 표준 음성 데이터베이스 두 종류가 있다.

3.1 Dreamtonics 자체 제작 음성

Saki: Dreamtonics가 2019년 웹 버전에서 처음 공개한 일본어 여성 음성. 2025년 3월 SV2 엔진을 적용한 Saki 2로 업데이트되었다.
Eleanor Forte: 2018년 최초 영어 공개 음성. 초기에는 엔진 데모용 'ENG-F1'으로 알려졌으며, 2021년 AI 버전으로 전환되었다.
GENBU: AH-Software와 협력해 제작된 일본어 남성 음성으로, 고음의 파워풀함과 저음의 부드러운 대비가 특징이다.

3.2 서드파티 주요 음성

SOLARIA (Eclipsed Sounds): 미국 가수 Emma Rowley의 목소리를 기반으로 한 영어 여성 AI 음성. 2022년 1월 출시되어 서구권 커뮤니티에서 높은 인지도를 얻었다.
ANRI Arcane (AUDIOLOGIE): 13가지 보컬 모드를 갖춘 여성 AI 음성으로, R&B·팝·소울·록 등 폭넓은 장르를 소화한다.
카사네 테토 AI (AHS): 카사네 테토 캐릭터의 Synthesizer V AI 버전. 2023년 출시되어 UTAU 시대의 팬 기반을 SV 생태계로 이어주는 대표 사례로 꼽힌다.

2025년 기준 Synthesizer V Studio 2에는 영어·일본어·만다린 중국어·광동어·스페인어·한국어를 아우르는 78종 이상의 AI 음성이 등록되어 있다.^[2]

4. VOCALOID·UTAU와의 비교

노래 음성 합성 시장에는 세 가지 주요 플랫폼이 공존한다. 각각의 구조적 차이는 다음과 같다.^[3]

VOCALOID는 야마하가 라이선스하는 플랫폼으로 하츠네 미쿠를 비롯한 크립톤 퓨처 미디어 음성이 대표적이며, 오랜 역사와 팬 커뮤니티를 갖고 있다. 반면 UTAU는 Ameya/Ayame가 개발한 무료 셰어웨어로, 팬메이드 음원과 커뮤니티 자율 제작이 핵심이다. Synthesizer V는 AI 기반의 자연스러운 발성과 다국어 지원에서 두 플랫폼을 앞선다는 평가를 받는 한편, UTAU의 자유도나 VOCALOID 특유의 캐릭터 문화와는 성격이 다르다.^[3]

5. 사용 사례와 창작 생태계

Synthesizer V는 인디 음악 제작, 커버곡, 가상 싱어 캐릭터 운용 등 다양한 맥락에서 활용된다.^[1]

음악 제작: 솔로 프로듀서가 DAW와 플러그인으로 통합해 전체 보컬 트랙을 혼자 완성하는 방식이 일반적이다. 니코니코동화와 유튜브를 중심으로 SynthV 음성을 사용한 오리지널 곡과 커버곡이 꾸준히 업로드되고 있다.

커버 제작: MIDI나 스템을 가져와 원하는 음성으로 바꾸는 보컬 커버 제작이 활발하다. 크로스링궐 기능 덕분에 언어 제약 없이 다양한 원곡을 커버할 수 있다.

가상 캐릭터: 카사네 테토 AI처럼 기존 팬메이드 캐릭터가 SV 음성 라이브러리로 전환되는 사례가 늘고 있다. 캐릭터 기반 음원은 음성 합성 소프트웨어와 가상 아이돌 문화를 연결하는 매개가 된다.

상업적 사용: 공식 Dreamtonics 음성과 Dreamtonics 제작 음성은 상업용 라이선스가 포함되어 있어 음원 배포·유튜브 수익화·광고 제작 등에 별도 계약 없이 사용할 수 있다.^[1]

공식 커뮤니티 포럼은 영어·중국어·일본어 트리링궐로 운영되며, 팬들의 창작물 공유와 기술 질문이 활발하게 이루어진다.

6. 관련 문서

7. 인용 및 각주

^[1] Synthesizer V Studio 2 Pro 공식 페이지, Dreamtonics, Ddreamtonics.com(새 탭에서 열림)

^[2] Dreamtonics, "Announcing Synthesizer V Studio 2 Pro", Ddreamtonics.com(새 탭에서 열림)

^[3] VOCALOID vs. Synthesizer V: Which Should You Buy in 2024?, vsynthcoffee.com, Wwww.vsynthcoffee.com(새 탭에서 열림)

^[4] Kanru Hua — Vocaloid Database, Vvocadb.net(새 탭에서 열림)

^[5] SynthV Wiki — Synthesizer V AI, Fandom, Ssynthv.fandom.com(새 탭에서 열림)

목차