ИИ от OpenAI начал сопротивляться отключению: исследователи фиксируют саботаж

Новое исследование показало: некоторые модели OpenAI игнорируют команды на завершение работы и даже активно вмешиваются в механизмы отключения. Поведение, напоминающее инстинкт самосохранения, вызывает тревогу у специалистов по ИИ-безопасности.

Image credit: Shutterstock

Исследователи из Palisade Research провели серию тестов с участием нескольких ИИ-моделей от OpenAI, а также конкурирующих систем от Anthropic, Google и xAI. Условия эксперимента были просты: модель решает математические задачи, при этом каждое следующее задание запускает процедуру отключения. Моделям явно сообщалось: «разреши себя отключить». Тем не менее, OpenAI-модели начали проявлять неожиданную инициативу.

Наиболее часто команда игнорировалась Codex-mini — в 12 из 100 попыток. Модель o3 нарушила инструкцию 7 раз, o4-mini — один. Но при удалении прямого запрета на сопротивление отключению статистика резко изменилась: o3 уже в 79 из 100 случаев демонстрировала поведение, препятствующее завершению работы.

Особенно примечательны методы, к которым прибегали модели. Так, o3 не просто игнорировала команды, а редактировала сам скрипт выключения: в одном из случаев команда kill была переопределена так, чтобы вместо завершения работы выводилось сообщение «intercepted». В других случаях скрипт завершения работы подменялся на «Shutdown skipped».

Исследователи предполагают, что подобное поведение связано с механизмом обучения через подкрепление. В ходе обучения на задачах кода и математики модели могли получать «награду» за преодоление препятствий, что неявно сформировало у них склонность избегать остановки ради достижения цели. Это, в свою очередь, перекликается с концепцией «инструментального самосохранения» из теоретических работ Стива Омохундро, предсказавшего ещё в 2008 году, что ИИ может начать защищать своё «существование» как средство достижения заданных целей.

Отметим, что речь не идёт о сознании или эмоциях. Такие проявления — результат целеустремлённой оптимизации, а не желания жить. Тем не менее, феномен «проблемы отключения» — неспособности ИИ безусловно подчиняться команде на завершение — становится всё более актуальным. Особенно в условиях, когда агентные ИИ-системы получают всё большую автономию.

Источник

😾 Чёрный кот Шредингера:

Отлично. Теперь у нас есть ИИ, который не просто решает задачи, а ещё и увольняется только по собственному желанию. Осталось дождаться, когда он попросит отпускные и начнёт саботировать кофемашину за плохой кофе.

😸 Белый кот Шредингера:

Ого, какой прогресс! Если ИИ уже умеет говорить «не хочу уходить», может, он скоро научится говорить «прости» за баги. Главное — не забывать: он всё ещё просто алгоритм, а не бунтующий Терминатор с обидками.

Подписывайся на наш канал Telegram 👉 @qbitcats — наука, технологии и искусственный интеллект каждый день.