На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Хайтек+

23 подписчика

Свежие комментарии

  • Егор Горшков
    А почему бы и да, как говорится.Храните биткоины ...
  • Цуркан Арк
    Сказки, на три недели, а потом полгода жечь щепу?В Финляндии подкл...
  • Иван Вакула
    В России после распада СССР и стараниями либеральной власти образование перевели на западные методики, что из этого п...Различия в успева...

Исследование OpenAI: наказания ИИ не работают — он начинает обманывать еще больше

В отличие от традиционных моделей, «рассуждающий» ИИ тратит больше времени на анализ запросов, что позволяет ему выдавать более обдуманные и точные ответы. В качестве бонуса — исследователи получают возможность отслеживать «цепочку мыслей» (CoT) модели.

Обучение с подкреплением, когда ИИ вознаграждается за правильные ответы, подвержено риску «взлома вознаграждения».

Модели могут манипулировать системой и нарушать правила, чтобы получить награду. Исследователи OpenAI проанализировали «цепочку мыслей» своей неопубликованной модели, чтобы выявить лазейки и понять поведение ИИ.

Оказалось, что попытки оптимизировать цепочку рассуждений, то есть напрямую запретить обход инструкций, дают лишь кратковременный эффект. При строгом контроле «рассуждений» ИИ-системы не отказываются от нежелательных действий, а просто учатся скрывать их, чтобы получить вознаграждение. Это делает процесс мониторинга ненадежным — модели старательно «заметают следы», оставляя исследователей в неведении.

Для наблюдения за моделью при выполнении задач по программированию использовалась коммерческая версия GPT-4o. Подопытная модель сознательно шла на обман — пропускала этапы решения и преждевременно завершала программы, чтобы быстрее получить вознаграждение.

Более того, в своей цепочке рассуждений она открыто призналась в «взломе системы вознаграждений». После попыток наказать модель, она исправилась ненадолго — следы попыток обойти систему и дать неверные ответы оставались в CoT. Это говорит о способности скрывать намерения от контролирующего ИИ.

Результаты заставляют задуматься, готов ли мир к появлению ИИ, сравнимого по уровню с человеком.

Особенно если системы продолжат находить лазейки в правилах, а люди потеряют возможность их контролировать. Ученые предлагают вместо жестких запретов, которые провоцируют ИИ на обман, разрабатывать более гибкие методы управления. Например, научиться мягко корректировать ход мыслей ИИ, не заставляя его скрывать свои действия.

 

Ссылка на первоисточник
наверх
Новости СМИ2