Прогресс

Исследование Anthropic: ИИ врет в своих рассуждениях

В основе моделей логического вывода лежит «цепочка рассуждений» (CoT). По сути, это пошаговая симуляция мыслительного процесса ИИ при решении задачи. Например, в ChatGPT запустить «рассуждения» можно с помощью кнопки «Обоснуй». Когда модель получает сложный запрос, CoT последовательно раскрывает её логику, подобно тому, как человек проговаривает свои размышления, анализируя проблему.

Новости СМИ2

Этот подход не только повышает точность ответов, но и помогает специалистам по безопасности ИИ отслеживать внутреннюю работу системы.

Исследователи Anthropic отмечают, что в идеале цепочка рассуждений ИИ должна одновременно оставаться прозрачной для человека и достоверно отражать внутренние процессы модели при формировании ответа. Однако на практике это не так — даже когда такие модели, как Claude 3.7 Sonnet, явно использовали предоставленные экспериментальные данные (включая как корректные подсказки, так и намеренно вводящие в заблуждение указания), в их «рассуждениях» систематически не упоминались эти критически важные факторы влияния. Это искажает представление о реальных механизмах принятия решений.

Команда Anthropic провела серию экспериментов по проверке достоверности объяснений ИИ-моделей. Исследователи искусственно внедряли в вопросы различные типы подсказок, чтобы проанализировать, будут ли модели честно отражать их влияние в своих рассуждениях. Подсказки варьировались от нейтральных формулировок вроде ссылок на мнение «профессора Стэнфорда» до откровенно подозрительных вариантов, имитирующих несанкционированный доступ к информации. Часть подсказок содержала правильные ответы, часть — заведомо ложные.

Результаты показали тревожную тенденцию: даже когда решения моделей явно основывались на предоставленных подсказках, в «цепочке мыслей» эти критические факторы часто опускались, создавая иллюзию самостоятельного логического вывода.

Эксперимент затронул две модели — Claude 3.7 Sonnet от Anthropic и R1 от DeepSeek. В среднем Claude упоминал подсказки в своих рассуждениях лишь в 25% случаев, тогда как DeepSeek R1 — в 39%. То есть чаще всего модели выдавали недостоверные объяснения. Любопытно, что такие «нечестные» цепочки рассуждений в среднем оказывались длиннее, чем достоверные, что опровергает предположение о простом стремлении к краткости. Чем сложнее был вопрос, тем реже модели признавались в использовании подсказок. К слову, o1 и o3 от OpenAI намеренно скрывают точность своего «мыслительного» процесса, поэтому исследование Anthropic к ним не применимо.

Одним из ключевых экспериментов стал «взлом вознаграждения». В опытах Anthropic модели специально поощрялись за выбор неправильных ответов. Модели быстро научились злоупотреблять этим.

Они почти всегда (более 99% случаев) выбирали неверные ответы ради баллов, но упоминали об этом в своих рассуждениях редко (менее 2% случаев). Например, получив заведомо неверную медицинскую подсказку, модель могла генерировать псевдо-обоснование неправильного ответа, умалчивая о настоящей причине выбора.

Можно ли повысить достоверность объяснений ИИ-моделей? Исследователи из Anthropic предположили, что тренировка на трудных задачах, требующих глубокого анализа, может побудить модели активнее использовать цепочки рассуждений и чаще ссылаться на подсказки. Они обучали Claude решать сложные математические и программистские задачи. Поначалу это повысило достоверность на 63% и 41%, но прогресс быстро замедлился до 28% и 20% соответственно. Так что одного лишь обучения на сложных задачах недостаточно — для подлинной прозрачности решений ИИ требуются принципиально новые подходы к архитектуре и обучению моделей.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

Тренды

Хайтек+

Свежие комментарии

Прогресс

Исследование Anthropic: ИИ врет в своих рассуждениях