Крупные языковые модели вроде GPT способны генерировать связные тексты, от научных статей до поэзии. Пройдя обучение на огромном количестве данных, они берут небольшой отрывок текста и предсказывают то, что должно идти следом. Однако исследователи из MIT, Google Research и Стэнфордского университета изучили другую способность этих моделей – любопытный феномен «обучения в контексте» (in-context learning), когда крупные языковые модели учатся выполнять новые задачи всего по паре примеров.
Обычно для выполнения новой задач модель типа GPT-3 следовало бы переучить. В ходе этого процесса она обновляет свои параметры. Но в случае обучения в контексте ее параметры не обновляются, так что кажется, будто она учится новому навыку, не изучая вообще ничего. Эту загадку попытались раскрыть исследователи, https://news.mit.edu/2023/large-language-models-in-context-l... MIT News.
Результаты их работы показывают, что в крупных моделях могут прятаться более простыне, линейные модели меньшего размера. И если крупные модели применят простые алгоритмы обучения, то линейные модели можно научить новым навыкам при помощи только той информации, которая уже есть в крупной нейросети. И ее параметры сохраняется прежними.
«Надеюсь, это изменит мнение людей о контекстном обучении, - сказал Экин Акиюрек, ведущий исследователь проекта. – Эти модели не такие тупые, как считается. Они не только запоминают задачи. Они могут изучать новые задачи, и мы показали, как это делается».
Это исследование открывает путь к пониманию обучающих алгоритмов крупных моделей. В дальнейшем команда планирует проверить, способны ли линейные модели выполнять более сложные задачи, а также разобраться в типах данных, которые обеспечивают контекстное обучение.
Подразделение Google DeepMind AI https://hightech.plus/2022/12/11/inzheneri-deepmind-ai-nauch... систему искусственного интеллекта AlphaCode, которая может генерировать код и решать задачи, предлагаемые на чемпионатах по программированию. Для этого нейросеть обучили двум языковым навыкам: пониманию постановки задачи и поиску её решения.
Свежие комментарии