Параметры – важнейший элемент алгоритмов машинного обучения, особенно если речь идет о языковых моделях. Чем выше количество параметров, тем лучше справляется модель с генерацией текста. К примеру, у GPT-3, одной из самых крупных языковых моделей, 175 млрд параметров, поэтому она может проводить аналогии, создавать рецепты, писать стихи и кодировать.
Масштабное обучение – эффективный способ создания мощных языковых моделей. Простая архитектура, подкрепленная крупными наборами данных и большим количеством параметров, превосходит намного более сложные алгоритмы. Но эффективное, масштабное обучение – крайне ресурсоемкий процесс. Вот почему исследователи из Google разработали метод Switch Transformer, при котором используется только подкласс веса модели, или параметров, которые трансформируют входящие данные внутри модели, https://venturebeat.com/2021/01/12/google-trained-a-trillion... Venture Beat.
Switch Transformer основан на работе различных «экспертов» или моделей, специализирующихся на выполнении различных задач, внутри более крупной модели. Его новшество заключается в эффективном использовании умножения плотных матриц – математических операций, широко использующихся в языковых моделях. В режиме тренировки модели распределяют вес по нескольким устройствам, так что вес возрастает вместе с количеством устройств, но поддерживает поддающуюся управлению память и вычислительную нагрузку на каждом устройстве.
Во время эксперимента они обучили несколько различных моделей с помощью 32-ядерного тензорного процессора на базе данных из 750 Гб текстов, взятых с Reddit, Wikipedia и других источников.
И дали модели задачу подставить отсутствующие 15% слов во фразах. По сравнению с менее крупной Switch-XXL новая модель не продемонстрировала «никакой нестабильности обучения», хотя и набрала чуть меньше баллов (87,7 по сравнению с 98,6) в тесте. Разработчики объясняют это непрозрачным отношением между качеством настройки, вычислительными требованиями и числом параметров.При этом Switch Transformer достиг в 7 раз большей скорости предварительного обучения при том же объеме вычислительных ресурсов. В тесте, где нужно было переводить между более чем 100 различными языками, модель показала четырехкратное увеличение скорости по сравнению с базовой.
В дальнейшем исследователи планируют применять Switch Transformer для решения новых задач, в том числе, включающих работу с текстом и изображениями. Они полагают, что эта модель способна обеспечить преимущества в мультимодальном режиме.
Разработанный исследователями из Google AI искусственный интеллект ALBERT https://hightech.plus/2019/09/27/ii-google-prevzoshel-chelov... первые места в двух крупных тестах на производительность среди моделей распознавания естественного языка. Модель ALBERT заработала 92,2 пункта в стэнфордском тесте SQUAD, в котором нужно было отвечать на вопросы, и 89,4 в тесте на оценку верности понимания языка GLUE.
Свежие комментарии