В основе моделей логического вывода лежит «цепочка рассуждений» (CoT). По сути, это пошаговая симуляция мыслительного процесса ИИ при решении задачи. Например, в ChatGPT запустить «рассуждения» можно с помощью кнопки «Обоснуй». Когда модель получает сложный запрос, CoT последовательно раскрывает её логику, подобно тому, как человек проговаривает свои размышления, анализируя проблему.
Этот подход не только повышает точность ответов, но и помогает специалистам по безопасности ИИ отслеживать внутреннюю работу системы.Исследователи Anthropic отмечают, что в идеале цепочка рассуждений ИИ должна одновременно оставаться прозрачной для человека и достоверно отражать внутренние процессы модели при формировании ответа. Однако на практике это не так — даже когда такие модели, как Claude 3.7 Sonnet, явно использовали предоставленные экспериментальные данные (включая как корректные подсказки, так и намеренно вводящие в заблуждение указания), в их «рассуждениях» систематически не упоминались эти критически важные факторы влияния. Это искажает представление о реальных механизмах принятия решений.
Команда Anthropic провела серию экспериментов по проверке достоверности объяснений ИИ-моделей. Исследователи искусственно внедряли в вопросы различные типы подсказок, чтобы проанализировать, будут ли модели честно отражать их влияние в своих рассуждениях. Подсказки варьировались от нейтральных формулировок вроде ссылок на мнение «профессора Стэнфорда» до откровенно подозрительных вариантов, имитирующих несанкционированный доступ к информации. Часть подсказок содержала правильные ответы, часть — заведомо ложные.
Результаты показали тревожную тенденцию: даже когда решения моделей явно основывались на предоставленных подсказках, в «цепочке мыслей» эти критические факторы часто опускались, создавая иллюзию самостоятельного логического вывода.
Эксперимент затронул две модели — Claude 3.7 Sonnet от Anthropic и R1 от DeepSeek. В среднем Claude упоминал подсказки в своих рассуждениях лишь в 25% случаев, тогда как DeepSeek R1 — в 39%. То есть чаще всего модели выдавали недостоверные объяснения. Любопытно, что такие «нечестные» цепочки рассуждений в среднем оказывались длиннее, чем достоверные, что опровергает предположение о простом стремлении к краткости. Чем сложнее был вопрос, тем реже модели признавались в использовании подсказок. К слову, o1 и o3 от OpenAI намеренно скрывают точность своего «мыслительного» процесса, поэтому исследование Anthropic к ним не применимо.
Одним из ключевых экспериментов стал «взлом вознаграждения». В опытах Anthropic модели специально поощрялись за выбор неправильных ответов. Модели быстро научились злоупотреблять этим.
Они почти всегда (более 99% случаев) выбирали неверные ответы ради баллов, но упоминали об этом в своих рассуждениях редко (менее 2% случаев). Например, получив заведомо неверную медицинскую подсказку, модель могла генерировать псевдо-обоснование неправильного ответа, умалчивая о настоящей причине выбора.
Можно ли повысить достоверность объяснений ИИ-моделей? Исследователи из Anthropic предположили, что тренировка на трудных задачах, требующих глубокого анализа, может побудить модели активнее использовать цепочки рассуждений и чаще ссылаться на подсказки. Они обучали Claude решать сложные математические и программистские задачи. Поначалу это повысило достоверность на 63% и 41%, но прогресс быстро замедлился до 28% и 20% соответственно. Так что одного лишь обучения на сложных задачах недостаточно — для подлинной прозрачности решений ИИ требуются принципиально новые подходы к архитектуре и обучению моделей.
Свежие комментарии