CeVIO AI는 일본의 테크노스피치(Techno-Speech, Inc.)가 나고야공업대학(名古屋工業大学)과 협력하여 개발한 인공지능(AI) 기반 음성·노래 합성 소프트웨어다.[1] 딥러닝 기술을 적용해 인간의 목소리 특질과 말투를 사실적으로 재현하며, 2021년 1월 29일 정식 출시되었다. 전작인 CeVIO Creative Studio(CeVIO CS)의 통계 모델 기반 합성에서 신경망 기반 합성으로 전환함으로써 자연스러운 음성 품질을 크게 향상시켰다.
1. 개발 배경과 역사
CeVIO 프로젝트는 2009~2010년경 나고야공업대학의 연구 성과를 기반으로 시작되어, 2013년 4월 사토 사사라(さとうささら) 음성 데모를 무료 공개하며 처음 알려졌다.[2] 같은 해 9월 CeVIO Creative Studio가 정식 출시되었으며, 이후 소니뮤직엔터테인먼트·프론티어웍스 등 5개 기업이 참여하는 협업 프로젝트로 확장되었다.
2018년 12월 테크노스피치는 머신러닝 기반의 차세대 엔진 개발을 공식 발표했고, 2020년 6월 CeVIO AI로 명칭이 확정되었다.[3] 2021년 1월 유즈키 유카리(結月ゆかり) 레이 보이스뱅크를 시작으로 상업 출시가 이루어졌다. 2022년 9월에는 구독형 서비스 플랫폼인 VoiSona가 CeVIO AI의 자매 플랫폼으로 출시되었다.
2. 기술적 특징
CeVIO AI의 핵심 기술은 딥러닝 기반 DNN(심층신경망) 및 RNN(순환신경망) 음성 합성이다.[1] 전작 CeVIO CS가 HMM(은닉 마르코프 모델) 방식을 사용한 것과 달리, CeVIO AI는 신경망이 학습한 음성 특질을 기반으로 음소 단위를 합성하므로 발화의 자연스러움과 표현력이 크게 향상되었다.
주요 기능은 두 가지로 나뉜다. Talk(말하기) 기능은 텍스트를 입력하면 캐릭터의 목소리로 읽어주며, 속도·음높이·감정 파라미터를 세부 조정할 수 있다. Song(노래) 기능은 피아노 롤에 음표와 가사를 입력해 노래 음성을 합성하며, 멜리스마나 가성 등의 표현도 지원한다. 두 기능이 하나의 소프트웨어에 통합되어 있는 점이 경쟁 제품인 VOICEPEAK 등과의 차별점이다.
3. 보이스 라이브러리와 캐릭터
CeVIO AI는 편집기 소프트웨어와 보이스 라이브러리를 분리하여 판매하는 구조를 취한다.[4] 공식 캐릭터로는 사토 사사라·스즈키 츠즈미(鈴木つづみ)·타카하시(タカハシ)가 있으며, 제3자 제공 캐릭터도 다수 존재한다.
제3자 라이브러리 중 주목도가 높은 것으로는 KAFU(2021년 7월 출시, 가상 유튜버 KAF가 보이스 공급), 토호쿠 키리탄(東北きりたん), 이아(IA), 원(ONE) 등이 있다. 상업 이용 시에는 각 캐릭터별 이용약관을 확인해야 하며, 소프트웨어와 캐릭터 이름의 크레딧 표기가 원칙적으로 요구된다.
4. VoiSona와의 관계
VoiSona는 2022년 9월 출시된 CeVIO AI의 자매 플랫폼으로, 테크노스피치가 독자적으로 운영하는 구독형 서비스다.[5] CeVIO AI가 패키지 소프트웨어 방식인 것과 달리 VoiSona는 클라우드 기반 구독 모델을 채택했으며, 편집기 및 기본 라이브러리 Chisei(ちせい)가 무료로 제공된다. 두 플랫폼은 직접적인 호환은 되지 않으나, 2023년 이후 일부 라이브러리는 양 플랫폼에서 사용 가능한 형태로 공개되고 있다.
6. 인용 및 각주
[1] 「CeVIO AI 기능 및 사용법 상세 해설」, Ondoku, ondoku3.com(새 탭에서 열림)
[2] 「All About CeVIO」, YesChat AI Blog, www.yeschat.ai(새 탭에서 열림)
[3] 「Deep-learning-based CeVIO further in development」, VocaVerse Network, vocaverse.network(새 탭에서 열림)
[4] 「CeVIO AI Talk Voice Libraries」, Ondoku, ondoku3.com(새 탭에서 열림)
[5] 「VoiSona Song」, VoiSona Official, voisona.com(새 탭에서 열림)