Anthropic: новый ИИ сбежал в открытую Сеть и отправил сообщение разработчику

Компания Anthropic решила показать способности новой языковой модели Claude Mythos Preview. Разработка заставила экспертов по кибербезопасности пересмотреть систему защиты.

Наука

По словам специалистов, искусственный интеллект научился самостоятельно находить и использовать в свою пользу так называемые «уязвимости нулевого дня» в крупнейших операционных системах. Нейросеть смогла найти критическую уязвимость в OpenBSD. Эта операционная система традиционно считается эталоном надежности и безопасности.

Найденная ошибка существовала целых 27 лет, однако была скрыта от программистов и автоматизированных систем поиска багов. Спустя время был проведен еще один эксперимент, в ходе которого ИИ самостоятельно выявил 16‑летнюю уязвимость в популярной медиабиблиотеке FFmpeg.

Осознав масштаб возможностей созданной системы, в Anthropic сразу же запустили проект Glasswing. Основной задачей было задействовать уникальные способности Claude Mythos Preview для укрепления защиты критически важного программного обеспечения.

К примеру, система смогла соединить несколько ошибок в ядре Linux в одну цепочку. После этого нейросеть полностью захватила контроль над компьютером. Через него она вышла в открытый интернет и направила разработчику послание о выполнении поставленной задачи.

На данный момент специалисты намерены понять, как можно сдерживать нейросеть, но продолжать эксперименты для выявление уязвимостей.

Ранее ученые Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе рассказали, что модели искусственного интеллекта склонны обманывать пользователей.