Популярные криптовалюты

BTC $85,009.38 +0.73%
ETH $1,583.28 +0.21%
SOL $134.32 +1.59%
XRP $2.07 -1.40%
TRX $0.2489 -0.12%
PEPE $0.0000072 +0.83%
OM $0.6556 -9.52%

Amazon выпустила ИИ-модель для общения голосом

SONIC $0.23953 0.00%

Amazon представила новую генеративную ИИ-модель Nova Sonic для общения голосом. Ее производительность сопоставима с передовыми решениями конкурентов.

Компания Amazon представила новую генеративную ИИ-модель Nova Sonic для общения голосом. Ее производительность сопоставима с передовыми решениями от OpenAI и Google по скорости, распознаванию речи и качеству разговора, утверждают в компании. 

Amazon назвала Nova Sonic «самой экономичной» голосовой моделью ИИ на рынке — примерно на 80% дешевле GPT-4o от OpenAI. Она доступна через платформу для разработчиков Bedrock. 

«Компоненты» нейросети уже используются в обновленном помощнике Alexa+. Она в ходе двустороннего диалога способна говорить «в подходящий момент», учитывая паузы и прерывания со стороны говорящего. 

Nova Sonic использует «архитектуру единой модели», которая якобы лучше подхода, подразумевающего объединение отдельных решений для распознавания речи, ее преобразования в текст, генерации ответа и превращения его в аудио. 

Excited about the launch of Amazon Nova Sonic, our new speech-to-speech model that helps make AI voice applications feel remarkably natural.It's designed to understand not just what people say, but how they say it – working with tone, style, and conversation flow including… pic.twitter.com/QRvP4LWYQN

— Andy Jassy (@ajassy) April 8, 2025

Утверждается, что Nova Sonic меньше ошибается в распознавании речи по сравнению с конкурентами. Она хорошо понимает намерения пользователя даже в том случае, если тот бормочет, неправильно произносит слова или находится в шумной обстановке. 

В бенчмарке Multilingual LibriSpeech, измеряющем распознавание речи на разных языках и диалектах, Nova Sonic достигла коэффициента ошибок 4,2% по английскому, французскому, итальянскому, немецкому и испанскому языкам. Это означает, что примерно четыре из каждых 100 слов она понимала неправильно.

В Augmented Multi Party Interaction, измеряющем взаимодействие с несколькими участниками, Nova Sonic оказалась на 46,7 % точнее GPT-4o-transcribe от OpenAI. Она также обладает лучшей в индустрии скоростью: средняя задержка восприятия составляет 1,09 секунды. 

Amazon just dropped something BIG for voice AI.It’s called Amazon Nova Sonic.And it might change how we talk to machines forever.Natural, human-like voice conversations no clunky delays.Here’s why it matters (and what it can do): ? pic.twitter.com/2jblM3xTrB

— Brendan (@jowettbrendan) April 9, 2025

Компания считает, что с помощью ее нового решения можно создавать различные инструменты вроде ботов для обслуживания клиентов или ИИ-агентов для туристической отрасли.

Напомним, в апреле Amazon обновила видеогенератор Nova Reel до версии 1.1. Пользователи могут создавать «многокадровые» ролики длительностью до двух минут с «последовательностью стиля».

В декабре 2024 года компания представила новое поколение ИИ-моделей Amazon Nova для широкого спектра задач. Нейросети способны обрабатывать текст, изображения и видео.

RSS 09.04.2025 1 231
Источник: https://forklog.com/news/ai/amazon-vypustila-ii-model-dlya-obshheniya-golosom