UTAU

UTAU(우타우, 歌う)는 아메야/쇼부(飴屋/菖蒲)가 2008년 3월 공개한 일본의 무료 가창 합성 소프트웨어다.^[1] 사용자가 직접 녹음한 보이스뱅크를 불러와 연결합성 방식으로 노래를 만들 수 있으며, 소프트웨어 자체가 무료이고 보이스뱅크 제작 진입장벽이 낮아 전 세계적으로 수천 개의 팬 제작 보이스뱅크가 등장하는 커뮤니티 문화를 형성했다.^[2] 보컬로이드와 함께 2010년대 일본 인터넷 음악 문화의 한 축을 담당했으며, 카사네 테토의 등장으로 UTAU 문화가 폭발적으로 확산되었다.^[3]

1. 개발 경위와 역사

UTAU의 기원은 '진리키 보카로이도(人力ボーカロイド, 인력 VOCALOID)'라는 커뮤니티 활동에 있다. 이는 기존 가수의 음성 트랙에서 음소를 추출·편집하고 피치를 조정해 보컬로이드 풍의 노래를 만들던 수작업 방식이었다.^[1] 아메야는 Audacity로 샘플을 재결합하고 Melodyne으로 피치를 교정하던 과정을 자동화하기 위해 UTAU를 개발했다.^[1]

2008년 3월 UTAU가 공개되었고, 같은 해 4월 1일 카사네 테토가 "가공의 VOCALOID"로 위장한 에이프릴 풀 기획으로 니코니코동화에 등장하면서 UTAU가 처음으로 대중에게 알려졌다.^[3] 카사네 테토의 UTAU 보이스뱅크가 공개되자 많은 사용자들이 UTAU 제작에 참여하기 시작했고, 이 시점이 UTAU 커뮤니티의 실질적 출발점으로 평가된다.^[2]

2013년 이후 UTAU 자체는 추가 업데이트가 중단되었고, 이에 따라 현대 운영체제 호환성 문제가 제기되었다. 2021년 스타키라(StAkira)가 UTAU를 계승하는 오픈소스 프로젝트 OpenUTAU를 공개하여 macOS·Linux 지원, 다국어 음소 처리 확장, 현대적 UI 등을 추가했다.^[4]

2. 합성 원리: 연결합성

UTAU는 연결합성(concatenative synthesis) 방식을 사용한다. 보이스뱅크에 수록된 짧은 WAV 음성 샘플들을 음소 단위로 잘라 재조합함으로써 임의의 가사를 노래하게 하는 원리다.^[1]

합성 과정은 크게 두 단계로 나뉜다. 먼저 리샘플러(resampler)가 음성 샘플의 피치와 길이를 목표 음표에 맞게 변환한다. 다음으로 wavtool이 리샘플러가 생성한 음성 조각들을 연결해 최종 오디오를 출력한다.^[5] 이 두 컴포넌트는 독립 실행 파일로 분리되어 있어, 서드파티 리샘플러로 교체하면 다른 음질이나 특성을 얻을 수 있다.

보이스뱅크는 WAV 샘플 파일 묶음과 각 샘플의 자음·모음 구간을 정의하는 oto.ini 파일로 구성된다. oto.ini에는 각 음소의 오버랩, 프리유토(preutterance), 커톱(cutoff) 등 타이밍 파라미터가 기록되며, 이 값이 정확할수록 합성음의 자연스러움이 올라간다.^[5] 악보 파일은 .ust(Utau Sequence Text) 형식으로 저장되며 자유롭게 배포·공유할 수 있다.

기본 내장 보이스뱅크는 우타네 우타(歌音ウタ)로, '데포코(デフォ子)'라는 별명으로도 불린다. 음원은 AQUEST의 TTS 엔진 AquesTalk를 기반으로 하며, 처음 설치 시 한 번 생성된 후 삭제되는 구조다.^[1]

3. 보이스뱅크 제작과 배포 문화

UTAU 문화의 핵심은 누구나 자신의 목소리로 보이스뱅크를 만들 수 있다는 점이다. 제작자는 정해진 음절 목록을 녹음한 WAV 파일을 준비하고, OREMO 또는 RecStar 같은 전용 녹음 도구를 사용해 음소를 정리한 뒤 oto.ini를 설정해 배포한다.^[5]

수록 방식에 따라 보이스뱅크 유형이 나뉜다. 음절 단위로 각 CV(자음+모음) 조합을 따로 녹음하는 CV 방식이 가장 단순하며 입문에 적합하다. 더 자연스러운 연결을 위해 앞 음절의 끝 자음을 다음 음절과 함께 녹음하는 VCV(모음+자음+모음) 방식은 부드러운 레가토를 구현하지만 녹음량이 크게 늘어난다. 영어권에서는 ARPABET 기반 다음소 녹음 체계인 CVVC 또는 ARPAsing 방식도 쓰인다.^[5]

보이스뱅크는 대개 작성자가 인터넷을 통해 직접 무료 배포하며, 일부는 상업 프로젝트로 판매되기도 한다. 보이스뱅크에는 캐릭터 설정(나이, 외형 등)이 함께 공개되는 경우가 많아, UTAU 커뮤니티는 단순한 음원 배포를 넘어 캐릭터 창작과 팬아트가 활발한 문화로 발전했다. 이런 캐릭터들은 영어권에서 UTAUloid라 불리며, 일본에서는 주로 UTAU 음원 또는 UTAU 캐릭터라 칭한다.^[2]

일본어 외에도 한국어·영어·중국어·스페인어 등 다양한 언어의 보이스뱅크가 제작되었다. OpenUTAU는 다국어 음소기(phonemizer) 플러그인 시스템을 도입해 언어 확장성을 한층 높였다.^[4]

4. VOCALOID와의 비교

UTAU와 VOCALOID는 가창 합성이라는 공통 목적을 가지지만 성격이 크게 다르다. VOCALOID는 야마하가 개발한 상업 엔진으로, 보이스뱅크 제작사가 라이선스 조건을 결정하고 소프트웨어 자체는 유료 제품이다. 반면 UTAU는 셰어웨어(사실상 무료)로 공개되어 있고, 보이스뱅크를 누구나 제작·배포할 수 있어 진입장벽이 낮다.^[1]^[2]

음질 면에서는 2010년대 초까지 VOCALOID가 우위였다. VOCALOID의 HMM 기반 합성은 음성 자연스러움이 높았던 반면, UTAU의 연결합성은 샘플 경계에서 부자연스러운 이음이 발생하기 쉬웠다. 그러나 UTAU 커뮤니티가 다양한 서드파티 리샘플러와 녹음 기법을 개발하면서 음질 격차가 줄어들었고, OpenUTAU 도입 이후에는 Synthesizer V용 AI 음원 일부를 OpenUTAU에서도 활용할 수 있는 경로가 생겼다.^[4]

문화적으로 UTAU는 VOCALOID의 하츠네 미쿠가 불러온 가상 가수 붐과 병행하여 성장했다. VOCALOID가 기업 주도 라이선스 캐릭터 문화라면, UTAU는 개인 창작자가 직접 캐릭터와 음원을 만들어 배포하는 풀뿌리 구조다. 이 차이 때문에 UTAU는 진입장벽이 낮은 대신 사용 난이도가 높다는 평가를 받아왔다.^[2]

5. 커뮤니티와 문화적 영향

UTAU 커뮤니티는 주로 니코니코동화, 유튜브, 그리고 각종 UTAU 전용 위키(UTAU Wiki 2.0, UTAU Fandom Wiki 등)를 중심으로 형성되었다. 일본 커뮤니티는 보이스뱅크 제작과 오리지널 곡 투고가 활발했으며, 영어권에서는 UTAUloid 캐릭터 창작과 커버곡 제작이 중심이었다.^[2]

한국에서는 '우사모(UTAU 사용자 모임)'를 중심으로 한국어 보이스뱅크 제작과 정보 공유가 이루어졌다. 한국어 UTAU 보이스뱅크는 한국어의 음소 체계상 음절 수가 많아 CV·CVVC 방식 모두 상당한 녹음량이 요구되는 어려움이 있었다. OpenUTAU의 다국어 phonemizer 지원으로 한국어 음소 처리가 크게 개선되었다.^[6]

대표적인 UTAU 캐릭터로는 카사네 테토, 우타네 우타(데포코), 모모네 모모, 야미네 렌리 등이 있으며, 야미네 렌리는 이후 Synthesizer V 음원으로 전환되기도 했다.^[2] 이러한 사례들은 UTAU에서 출발한 캐릭터가 최신 AI 음성 합성 엔진으로 이식되는 흐름을 보여준다.