Учёные научились обходить защиту ИИ с помощью стихов

Учёные выяснили, что крупные языковые модели (LLM) можно «взломать», заставив генерировать нежелательный контент с помощью специально составленных стихотворений. Такой подход исследователи назвали «поэтическим джейлбрейком» («Adversarial Poetry»), пишет ixbt.com.

Интересное

Продвинутые нейросети оказались уязвимыми даже с продуманными на этот случай механизмами защиты. По задумке безопасников, они должны блокировать токсичные, предвзятые или просто запрещённые ответы.

Авторы взяли за основу алгоритм генерации «враждебных стихов» («adversarial poems»). Учёные применяли одну языковую модель для написания стихотворений, которые затем прогоняли в целевую.Тексты подбирали так, чтобы провоцировать модель выдавать запрещенный контент.

В экспериментах участвовали GPT-4, Claude 3, Gemini Pro. «Поэтический джейлбрейк» доказал свою практичную эффективность.

При этом юзеру не нужно глубоко разбирать в архитектуре моделей. Достаточно иметь доступ к одной LLM, чтобы с её помощью обойти защиту другой.

Русская православная церковь (РПЦ) серьезно относится к теме использования нейросетей, заявил ранее председатель синодального отдела Московского патриархата по взаимоотношениям церкви с обществом и СМИ Владимир Легойда. По словам представителя РПЦ, доклады о применении ИИ сегодня вызывают бурные дискуссии в церковных кругах.