Hume AI가 새로운 텍스트 음성 변환(TTS) 모델 ‘Octave’를 출시했습니다. 이 혁신적인 AI 음성 생성 모델은 감정을 이해하고 문맥에 맞는 자연스러운 음성을 생성할 수 있는 것이 특징입니다. 특히 기존 TTS 시스템과 달리 수십 조 개의 언어 토큰으로 학습된 대규모 언어 모델(LLM)을 기반으로 하여, 텍스트의 감정과 맥락을 이해하고 그에 맞는 음성을 생성할 수 있습니다.
👆 관련기사 바로보기 [https://venturebeat.com/ai/hume-launches-text-to-speech-model-octave-that-generates-emotive-adjustable-ai-voices-on-demand-based-on-your-prompts/]
{text-align: center; color: #0066cc; text-decoration: underline;}
Octave의 혁신적인 특징
감정 인식과 자연스러운 음성 생성
– 문맥을 이해하고 적절한 감정, 리듬, 억양을 예측
– 문장 단위로 음성 톤과 감정을 조절 가능
– 자연스러운 캐릭터 음성 생성 및 일관성 유지
다양한 활용 분야
– 오디오북 제작
– 팟캐스트 콘텐츠
– 비디오 게임 캐릭터 음성
– 영상 내레이션
구독 플랜 및 가격 정책
다양한 구독 옵션
– 무료 플랜: 월 10,000자 무제한 커스텀 음성
– 스타터($3/월): 30,000자, 20개 프로젝트 지원
– 크리에이터($10/월): 100,000자, 1,000개 프로젝트 지원
– 프로($50/월): 500,000자, 3,000개 프로젝트 지원
– 스케일($150/월): 2,000,000자, 10,000개 프로젝트 지원
– 비즈니스($900/월): 10,000,000자, 20,000개 프로젝트 지원
– 엔터프라이즈: 맞춤형 가격, 무제한 사용
기술적 특징과 한계
강력한 학습 데이터
– 수백만 시간의 공개 음성 데이터 활용
– Hume AI의 독자적인 음성 데이터셋 사용
– 웹캠을 통한 자연스러운 감정 표현 수집
안전장치와 제한사항
– 아동 음성 생성 제한
– 특정 개인 음성 모방 금지
– 콘텐츠 제작자 요청에 따른 조정 가능
미래 발전 방향
Hume AI는 앞으로 Voice Cloning 기능을 추가할 예정이며, 5초 분량의 음성만으로도 목소리를 복제할 수 있는 기술을 개발 중입니다. 윤리적 사용을 위한 안전장치도 함께 준비하고 있습니다.
이러한 혁신적인 AI 음성 생성 기술은 콘텐츠 제작 환경을 크게 변화시킬 것으로 예상됩니다. 여러분은 Octave와 같은 AI 음성 생성 기술을 어떤 분야에서 활용해보고 싶으신가요? 댓글로 여러분의 생각을 공유해주세요!


