Компания Anthropic решила показать способности новой языковой модели Claude Mythos Preview. Разработка заставила экспертов по кибербезопасности пересмотреть систему защиты.

По словам специалистов, искусственный интеллект научился самостоятельно находить и использовать в свою пользу так называемые «уязвимости нулевого дня» в крупнейших операционных системах. Нейросеть смогла найти критическую уязвимость в OpenBSD. Эта операционная система традиционно считается эталоном надежности и безопасности.
Найденная ошибка существовала целых 27 лет, однако была скрыта от программистов и автоматизированных систем поиска багов. Спустя время был проведен еще один эксперимент, в ходе которого ИИ самостоятельно выявил 16‑летнюю уязвимость в популярной медиабиблиотеке FFmpeg.
Осознав масштаб возможностей созданной системы, в Anthropic сразу же запустили проект Glasswing. Основной задачей было задействовать уникальные способности Claude Mythos Preview для укрепления защиты критически важного программного обеспечения.
К примеру, система смогла соединить несколько ошибок в ядре Linux в одну цепочку. После этого нейросеть полностью захватила контроль над компьютером. Через него она вышла в открытый интернет и направила разработчику послание о выполнении поставленной задачи.
На данный момент специалисты намерены понять, как можно сдерживать нейросеть, но продолжать эксперименты для выявление уязвимостей.
Ранее ученые Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе рассказали, что модели искусственного интеллекта склонны обманывать пользователей.



