Прогресс

Крупные языковые модели могут обучаться новым навыкам без больших данных

Крупные языковые модели вроде GPT способны генерировать связные тексты, от научных статей до поэзии. Пройдя обучение на огромном количестве данных, они берут небольшой отрывок текста и предсказывают то, что должно идти следом. Однако исследователи из MIT, Google Research и Стэнфордского университета изучили другую способность этих моделей – любопытный феномен «обучения в контексте» (in-context learning), когда крупные языковые модели учатся выполнять новые задачи всего по паре примеров.

Обычно для выполнения новой задач модель типа GPT-3 следовало бы переучить. В ходе этого процесса она обновляет свои параметры. Но в случае обучения в контексте ее параметры не обновляются, так что кажется, будто она учится новому навыку, не изучая вообще ничего. Эту загадку попытались раскрыть исследователи, https://news.mit.edu/2023/large-language-models-in-context-l... MIT News.

Результаты их работы показывают, что в крупных моделях могут прятаться более простыне, линейные модели меньшего размера. И если крупные модели применят простые алгоритмы обучения, то линейные модели можно научить новым навыкам при помощи только той информации, которая уже есть в крупной нейросети. И ее параметры сохраняется прежними.

«Надеюсь, это изменит мнение людей о контекстном обучении, - сказал Экин Акиюрек, ведущий исследователь проекта. – Эти модели не такие тупые, как считается. Они не только запоминают задачи. Они могут изучать новые задачи, и мы показали, как это делается».

Это исследование открывает путь к пониманию обучающих алгоритмов крупных моделей. В дальнейшем команда планирует проверить, способны ли линейные модели выполнять более сложные задачи, а также разобраться в типах данных, которые обеспечивают контекстное обучение.

Подразделение Google DeepMind AI https://hightech.plus/2022/12/11/inzheneri-deepmind-ai-nauch... систему искусственного интеллекта AlphaCode, которая может генерировать код и решать задачи, предлагаемые на чемпионатах по программированию. Для этого нейросеть обучили двум языковым навыкам: пониманию постановки задачи и поиску её решения.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

Идеи

Хайтек+

Свежие комментарии

Прогресс

Крупные языковые модели могут обучаться новым навыкам без больших данных