На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Хайтек+

23 подписчика

Свежие комментарии

  • Егор Горшков
    А почему бы и да, как говорится.Храните биткоины ...
  • Цуркан Арк
    Сказки, на три недели, а потом полгода жечь щепу?В Финляндии подкл...
  • Иван Вакула
    В России после распада СССР и стараниями либеральной власти образование перевели на западные методики, что из этого п...Различия в успева...

«Сбер» открыл доступ к русскоязычной ИИ-модели ruGPT-3.5

Одна из основных проблем открытых больших языковых моделей — ограниченная поддержка русского языка. Обычно такие модели обучаются на русском разделе «Википедии» и лишь небольшом объеме общедоступных текстов на русском языке. Это сказывается на качестве понимания языка и ответов модели, ограничивая способность точно обработать запросы на русском языке.

Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, разработана специально для работы в русскоязычной среде и качественнее обрабатывает запросы на русском языке. Это делает ruGPT-3.5 более эффективным решением для задач, связанных с русскоязычным контентом.

Процесс обучения модели проходил в два этапа. На первом этапе, который занял 1,5 месяца, платформа обработала общий объем данных в 300 ГБайт. Эти данные включали в себя книги, научные статьи, энциклопедические записи, контент из социальных ресурсов и другие источники. Для успешного завершения этого этапа использовалось 512 ускорителей NVIDIA V100.

Второй этап предполагал дообучение модели на 110 ГБайт данных из датасета The Stack, юридических документов и обновленных текстов из «Википедии». Проведение этого этапа заняло три недели, и для его выполнения потребовалось 200 ускорителей NVIDIA A100.

В итоге ruGPT-3.5 содержит 13 млрд параметров при длине контекста 2048 токенов. В качестве сравнения разработчики предлагают рассказ А. П. Чехова «Хамелеон», который разбивается на 1650 токенов при его длине в 901 слово.

 

Ссылка на первоисточник
наверх
Новости СМИ2