На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Хайтек+

22 подписчика

Свежие комментарии

  • Иван Вакула
    В России после распада СССР и стараниями либеральной власти образование перевели на западные методики, что из этого п...Различия в успева...
  • Aleksandr Antonov
    Мы 33 цивилизация на земле, так что не надо, люди вобще появились более 1000000 назад. Но не однократно уничтожали ь ...Заселение Северно...

В Яндексе придумали, как бизнесу сократить расходы на ИИ в 8 раз

Для эффективной работы больших языковых моделей обычно требуется множество дорогостоящих графических процессоров. Решение от Яндекса позволяет уменьшить размер моделей в несколько раз, что снижает потребность в вычислительных мощностях и позволяет запускать модели на устройствах с меньшими вычислительными ресурсами.

Это делает внедрение и обслуживание нейросетей более доступным для бизнеса. В отличие от других методов, которые существенно снижают качество ответов нейросетей при сжатии, метод Яндекса сохраняет до 95% качества.

Разработанное https://yandex.ru/company/news/02-23-07-2024 включает два инструмента. Первый уменьшает размер модели до 8 раз, что ускоряет её работу и позволяет запускать её на одном графическом процессоре вместо 4. Второй инструмент исправляет ошибки, возникающие в процессе сжатия, что обеспечивает высокое качество работы модели.

Эффективность методов была проверена на популярных моделях с открытым исходным кодом, таких как Llama 2, Llama 3 и Mistral. В ходе тестирования на англоязычных бенчмарках, метод Яндекса показал лучший результат среди всех существующих методов сжатия, сохранив в среднем 95% качества ответов нейросети, в то время как другие инструменты сохраняют от 59% до 90%.

Код новых методов сжатия уже опубликован на https://github.com/vahe1994/aqlm, что позволяет специалистам начать его использовать. Также доступны для скачивания уже сжатые модели и обучающие материалы, которые помогут разработчикам адаптировать уменьшенные нейросети под свои задачи.

Статья Yandex Research о методе сжатия AQLM вошла в программу одной из самых престижных конференций по машинному обучению — ICML. Работа была подготовлена в сотрудничестве с экспертами из ISTA и ИИ-стартапа Neural Magic.

 

Ссылка на первоисточник
наверх
Новости СМИ2