Google DeepMind представил новый научный отчет, в котором изложены достижения в области безопасности моделей Gemini 2.5, которые стали самыми защищёнными в серии. В документе «Уроки защиты Gemini от косвенных инъекций подсказок» команда исследований безопасности и конфиденциальности подробно описала стратегический подход к защите от атаки косвенных инъекций, которые представляют собой реальную угрозу кибербезопасности.
Косвенные инъекции подсказок возникают, когда AI-модели испытывают трудности с различением между настоящими инструкциями пользователя и манипулятивными командами, которые могут быть скрыты в данных, которые они обрабатывают. Для решения этой проблемы Google DeepMind разработал автоматизированную систему для постоянного тестирования защиты модели Gemini, что позволяет выявлять уязвимости и значительно повышать уровень защиты от атак.
В процессе работы над укреплением модели (модельным хардением) команда провела обучение на наборе реалистичных сценариев, что позволило модели игнорировать вредоносные инструкции и следовать изначальному запросу пользователя. Так, Gemini сумела значительно снизить уровень успешных атак при этом не ухудшив производительность на стандартных задачах.
Следует отметить, что несмотря на все усилия, ни одна модель не может гарантировать полную защиту от атак. Поэтому основное внимание акцентируется на усложнении атак для противников, делая их более дорогостоящими и сложными. Защита AI-моделей требует многослойного подхода и постоянной адаптивной оценки, что поможет сохранить их безопасность и надежность.
