Прогресс

«Яндекс» разрабатывает нейросеть SpeechGPT, которая сможет понимать интонации устной речи

Нейросети «Яндекса» уже понимают устную речь, однако только потому, что сначала переводят её в письменную. Из-за этого теряются такие важные аспекты сообщения, как интонация и темп речи, поэтому модель не понимает эмоции говорящего. Кроме того, происходят задержки, модели нужно «подумать», прежде чем ответить на запрос пользователя.

Мультимодальная большая языковая модель поможет исправить это.

В компании говорят, что при разработке постараются использовать «лучшее от 2 миров»: технологии обработки естественного языка, которые OpenAI использует в ChatGPT, и технологии распознавания речи, которые Яндекс применяет в «Алисе». Новую разработку планируют интегрировать во флагманский голосовой помощник.

Эксперты https://www.kommersant.ru/doc/6744106, что SpeechGPT представят уже в ближайшее время. Минимальный жизнеспособный продукт появится спустя несколько месяцев, вероятно, до конца 2024 года, а затем его будут постоянно дорабатывать и улучшать.

Не стоит ожидать от новой мультимодульной модели успехов GPT-4o: между Яндексом и OpenAI пропасть в количестве ресурсов, которые они могут потратить на выпуск продукта. У команды Альтмана есть миллиарды долларов и десятки тысяч передовых ускорителей. Однако ускорить «Алису» и научить её понимать интонации в Яндексе вполне смогут.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

яндекса

Кейсы

Хайтек+

Свежие комментарии

Прогресс

«Яндекс» разрабатывает нейросеть SpeechGPT, которая сможет понимать интонации устной речи