Microsoft представя HD гласове с подобрена експресивност в Azure AI Speech

Microsoft представя HD гласове с подобрена експресивност в Azure AI Speech

Миналата година Microsoft представи суперреалистични AI гласове , предназначени за разговорни приложения, като чатботове, гласови асистенти, игри и др. С Azure Speech SDK или REST API, разработчиците биха могли да интегрират тези невронни гласове от текст към реч (TTS) в своите приложения. През последните месеци Microsoft значително разшири своите предложения, като вече може да се похвали с над 500 невронни гласа на повече от 140 езика и локали.

Днес Microsoft представи подобрена HD версия на своята невронна услуга за преобразуване на текст в реч за избрани гласове. Тези нови HD гласове подобряват цялостната изразителност чрез разпознаване на емоции, което отчита контекста на въведения текст. Microsoft твърди, че тези най-нови HD гласове използват авторегресивни трансформиращи езикови модели, като произвеждат реч, която е в съответствие с гласовия тембър на избраната платформа. Предимствата на новите HD гласове включват:

  • Генериране на човешка реч : Подобреният модел точно интерпретира въведения текст и разбира основното чувство, което му позволява да коригира тона на говорене в реално време, за да съответства на предадената емоция.
  • Разговорен : Този нов модел генерира спонтанни паузи и подчертаване. Microsoft подчертава, че може да възпроизвежда общи фонеми като паузи и думи за пълнене.
  • Прозодични вариации : HD гласовата система въвежда леки вариации във всеки изход, подобрявайки реализма, като гарантира, че всяко изречение звучи различно от предишно генерираната реч.

Гарфийлд Хе, мениджър на програмата Cognitive Services Speech в Microsoft, коментира стартирането на HD voice:

„С иновативна технология, която използва акустични и лингвистични характеристики за генериране на реч, характеризираща се с богати, естествени вариации, тя умело открива емоционални сигнали в текста и автономно настройва тона и стила на гласа. Това надграждане предоставя по-подобен на човешки модел реч, белязан от подобрена интонация, ритъм и емоция.“

Примерно аудио съдържание, генерирано с този HD гласов модел, може да се намери във видеото по-долу.

Новите HD гласове в момента са в предварителен преглед за разработчици в три региона: Източна САЩ, Западна Европа и Югоизточна Азия. Цената за използване на тези HD гласове е определена на $30 за 1 милион знака.

Източник: Microsoft

Източник