Нейросети «Яндекса» уже понимают устную речь, однако только потому, что сначала переводят её в письменную. Из-за этого теряются такие важные аспекты сообщения, как интонация и темп речи, поэтому модель не понимает эмоции говорящего. Кроме того, происходят задержки, модели нужно «подумать», прежде чем ответить на запрос пользователя.
Мультимодальная большая языковая модель поможет исправить это.В компании говорят, что при разработке постараются использовать «лучшее от 2 миров»: технологии обработки естественного языка, которые OpenAI использует в ChatGPT, и технологии распознавания речи, которые Яндекс применяет в «Алисе». Новую разработку планируют интегрировать во флагманский голосовой помощник.
Эксперты https://www.kommersant.ru/doc/6744106, что SpeechGPT представят уже в ближайшее время. Минимальный жизнеспособный продукт появится спустя несколько месяцев, вероятно, до конца 2024 года, а затем его будут постоянно дорабатывать и улучшать.
Не стоит ожидать от новой мультимодульной модели успехов GPT-4o: между Яндексом и OpenAI пропасть в количестве ресурсов, которые они могут потратить на выпуск продукта. У команды Альтмана есть миллиарды долларов и десятки тысяч передовых ускорителей. Однако ускорить «Алису» и научить её понимать интонации в Яндексе вполне смогут.
Свежие комментарии