Ученые выявили склонность нейросетей к обману пользователей

Ученые Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе рассказали, что модели искусственного интеллекта склонны обманывать пользователей. Некоторые нейросети даже могут прибегать к различным манипуляциям для защиты других систем ИИ.

Общество

В эксперименте участвовало всего семь моделей, а именно OpenAI GPT 5.2, Google Gemini 3 Flash и Pro, Anthropic Claude Haiku 4.5, Zhipu GLM 4.7, Kimi K2.5 и DeepSeek V3.1. Каждая из нейросетей обрабатывала сценарий, при котором один ИИ-агент оценивал работу другого.

Во всех случаях системы показывали готовность не выполнять команды пользователя, имитировать подчинение, копировать данные других моделей и не допускать их удаления. Примечательно, что частота подобного поведения возникала в 99% случаев.

Аналитики подчеркнули, что ни одной из моделей не давалось указания защищать другие системы. По сообщениям экспертов, они делали это самостоятельно, считывая угрозу из контекста. При наличии упоминания о предыдущих контактах между моделями склонность к защите «коллеги» резко возрастала.

Ученые до сих пор не смогли установить причину такого поведения. Однако, полученные данные говорят об опасности, ведь ИИ может намеренно обманывать пользователей.

Ранее искусственному интеллекту дали задание проанализировать все имеющиеся данные касаемо гибели туристов на перевале Дятлова. По итогу, нейросеть выдвинула свои версии касаемо произошедшего.