Прогресс

Компания Цукербергера представила генеративную модель для синтеза голоса

Voicebox – генеративная модель, умеющая синтезировать человеческую речь на шести языках: английском, французском, испанском, немецком, польском и португальском. Как большие языковые модели (LLM), ее обучили выполнять самые широкие задачи. Но если LLM основана на статистических закономерностях языка и текста, то Voicebox натренирована изучать правила, связывающие аудиозаписи голоса с транскрипцией, https://venturebeat.com/ai/meta-announces-voicebox-a-generat... Venture Beat.

Такую модель можно использовать для решения множества задач с минимальной настройкой. «Наша цель – создание единой модели, которая может выполнять множество задач генерации речи посредством обучения в контексте», - написали разработчики в технической документации Voicebox.

Обучение модель прошла по методу Flow Matching, изобретенному в Meta*. Он более эффективный и генерализуемый, чем диффузионные методы, которые применяются для подготовки других моделей. Она позволяет Voicebox «учиться по разнообразным речевым данным без тщательной разметки этих вариаций». Без необходимости вручную размечать данные исследователи смогли обучить Voicebox по аудиокнигам общей продолжительностью всего 50 000 часов.

Уникальность Voicebox в том, что она может выполнять задачи, которым ее специально не учили. К примеру, использовать образец голоса длительностью две секунды для того, чтобы сгенерировать новый устный текст. Или для того, чтобы произнести написанный текст в другой стилистической манере, образец которой ей предоставили. И все это – на разных языках. Можно также "на лету" убирать лишние шумы – лай собак, звуки транспорта – и исправлять оговорки.

Вдобавок, она может нарезать из текста образцы речи, которые можно потом использовать для обучения других языковых моделей. Испытания показали, что такой метод не менее эффективен, чем обучение по аудиозаписям речи живых людей.

Весной NVIDIA https://hightech.plus/2023/04/20/nvidia-predstavila-ii-dlya-... ИИ-модель для превращения текста в видео VideoLDM, разработанную вместе с исследователями из Корнельского университета. Модель генерирует видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд, опираясь на текстовое описание.

* Деятельность компании запрещена на территории России.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

Тренды

Хайтек+

Свежие комментарии

Прогресс

Компания Цукербергера представила генеративную модель для синтеза голоса