На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Хайтек+

23 подписчика

Свежие комментарии

  • Егор Горшков
    А почему бы и да, как говорится.Храните биткоины ...
  • Цуркан Арк
    Сказки, на три недели, а потом полгода жечь щепу?В Финляндии подкл...
  • Иван Вакула
    В России после распада СССР и стараниями либеральной власти образование перевели на западные методики, что из этого п...Различия в успева...

Google обучила языковую модель с триллионом параметров

Параметры – важнейший элемент алгоритмов машинного обучения, особенно если речь идет о языковых моделях. Чем выше количество параметров, тем лучше справляется модель с генерацией текста. К примеру, у GPT-3, одной из самых крупных языковых моделей, 175 млрд параметров, поэтому она может проводить аналогии, создавать рецепты, писать стихи и кодировать.

Масштабное обучение – эффективный способ создания мощных языковых моделей. Простая архитектура, подкрепленная крупными наборами данных и большим количеством параметров, превосходит намного более сложные алгоритмы. Но эффективное, масштабное обучение – крайне ресурсоемкий процесс. Вот почему исследователи из Google разработали метод Switch Transformer, при котором используется только подкласс веса модели, или параметров, которые трансформируют входящие данные внутри модели, https://venturebeat.com/2021/01/12/google-trained-a-trillion... Venture Beat.

Switch Transformer основан на работе различных «экспертов» или моделей, специализирующихся на выполнении различных задач, внутри более крупной модели. Его новшество заключается в эффективном использовании умножения плотных матриц – математических операций, широко использующихся в языковых моделях. В режиме тренировки модели распределяют вес по нескольким устройствам, так что вес возрастает вместе с количеством устройств, но поддерживает поддающуюся управлению память и вычислительную нагрузку на каждом устройстве.

Во время эксперимента они обучили несколько различных моделей с помощью 32-ядерного тензорного процессора на базе данных из 750 Гб текстов, взятых с Reddit, Wikipedia и других источников.

И дали модели задачу подставить отсутствующие 15% слов во фразах. По сравнению с менее крупной Switch-XXL новая модель не продемонстрировала «никакой нестабильности обучения», хотя и набрала чуть меньше баллов (87,7 по сравнению с 98,6) в тесте. Разработчики объясняют это непрозрачным отношением между качеством настройки, вычислительными требованиями и числом параметров.

При этом Switch Transformer достиг в 7 раз большей скорости предварительного обучения при том же объеме вычислительных ресурсов. В тесте, где нужно было переводить между более чем 100 различными языками, модель показала четырехкратное увеличение скорости по сравнению с базовой.

В дальнейшем исследователи планируют применять Switch Transformer для решения новых задач, в том числе, включающих работу с текстом и изображениями. Они полагают, что эта модель способна обеспечить преимущества в мультимодальном режиме.

Разработанный исследователями из Google AI искусственный интеллект ALBERT https://hightech.plus/2019/09/27/ii-google-prevzoshel-chelov... первые места в двух крупных тестах на производительность среди моделей распознавания естественного языка. Модель ALBERT заработала 92,2 пункта в стэнфордском тесте SQUAD, в котором нужно было отвечать на вопросы, и 89,4 в тесте на оценку верности понимания языка GLUE.

 

Ссылка на первоисточник
наверх
Новости СМИ2