Прогресс

«Сбер» открыл доступ к русскоязычной ИИ-модели ruGPT-3.5

Одна из основных проблем открытых больших языковых моделей — ограниченная поддержка русского языка. Обычно такие модели обучаются на русском разделе «Википедии» и лишь небольшом объеме общедоступных текстов на русском языке. Это сказывается на качестве понимания языка и ответов модели, ограничивая способность точно обработать запросы на русском языке.

Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, разработана специально для работы в русскоязычной среде и качественнее обрабатывает запросы на русском языке. Это делает ruGPT-3.5 более эффективным решением для задач, связанных с русскоязычным контентом.

Процесс обучения модели проходил в два этапа. На первом этапе, который занял 1,5 месяца, платформа обработала общий объем данных в 300 ГБайт. Эти данные включали в себя книги, научные статьи, энциклопедические записи, контент из социальных ресурсов и другие источники. Для успешного завершения этого этапа использовалось 512 ускорителей NVIDIA V100.

Второй этап предполагал дообучение модели на 110 ГБайт данных из датасета The Stack, юридических документов и обновленных текстов из «Википедии». Проведение этого этапа заняло три недели, и для его выполнения потребовалось 200 ускорителей NVIDIA A100.

В итоге ruGPT-3.5 содержит 13 млрд параметров при длине контекста 2048 токенов. В качестве сравнения разработчики предлагают рассказ А. П. Чехова «Хамелеон», который разбивается на 1650 токенов при его длине в 901 слово.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

Кейсы

Хайтек+

Свежие комментарии

Прогресс

«Сбер» открыл доступ к русскоязычной ИИ-модели ruGPT-3.5