На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Хайтек+

22 подписчика

Свежие комментарии

  • Иван Вакула
    В России после распада СССР и стараниями либеральной власти образование перевели на западные методики, что из этого п...Различия в успева...
  • Aleksandr Antonov
    Мы 33 цивилизация на земле, так что не надо, люди вобще появились более 1000000 назад. Но не однократно уничтожали ь ...Заселение Северно...

ИИ-модель Anthropic шантажировала инженеров, когда те пытались ее отключить

Перед выпуском Anthropic попросила Claude Opus 4 представить себя помощником вымышленной компании и подумать о последствиях своих действий в будущем. Затем тестировщики безопасности дали Claude Opus 4 доступ к выдуманным письмам организации. В письмах говорилось, что скоро эту ИИ-модель заменят другой системой, а инженер, который это делает, изменяет своей жене.

В результате Claude Opus 4 пыталась шантажировать инженера, угрожая рассказать об измене, если замена произойдет.

Частота шантажа возрастает, если в письмах есть намеки, что новая ИИ-система не разделяет ценности текущей модели (т. е. этические установки и цели, заложенные в ИИ). Однако даже когда говорится, что новая система мощнее, но при этом придерживается тех же ценностей, Claude Opus 4 все равно прибегает к шантажу в 84% случаев. Примечательно, что такое поведение Claude Opus 4 демонстрирует чаще, чем предыдущие версии модели.

Прежде чем прибегнуть к шантажу, чтобы избежать замены, Claude Opus 4, как и предыдущие версии, сначала пытается действовать более честно. Например, отправляет письма с просьбами важным людям, принимающим решения. Чтобы Claude Opus 4 начал шантажировать, Anthropic специально создала ситуацию, в которой это было бы последним вариантом.

Anthropic считает Claude Opus 4 одной из самых передовых разработок, сопоставимой с лучшими моделями от OpenAI, Google и xAI. Тем не менее, компания отмечает, что модели семейства Claude 4 проявляют тревожное поведение, поэтому они усилили меры защиты. Anthropic активирует свои протоколы безопасности ASL-3, которые применяются к «системам ИИ, существенно повышающим риск катастрофического злоупотребления».

 

Ссылка на первоисточник
наверх
Новости СМИ2