Google DeepMind публикует новый отчёт о безопасности модели Gemini 2.5

Google DeepMind представила новый белый документ, в котором изложены достижения в области безопасности их последней модели Gemini 2.5. Модель нацелена на решение актуальной проблемы кибербезопасности — атак с использованием косвенных внедрений команд, что представляет опасность для интеллектуальных систем, обрабатывающих чувствительные данные.

Сложность таких атак заключается в том, что искусственные интеллекты, как Gemini и другие большие языковые модели (LLMs), могут спутать настоящие команды пользователя с манипулятивными инструкциями, скрытыми в поступающих данных. Новый отчет «Уроки защиты Gemini от косвенных внедрений команд» содержит стратегический план борьбы с этой угрозой.

Основным механизмом защиты, разработанным командой DeepMind, стало автоматизированное испытание (ART), которое позволяет регулярно проверять модель на наличие уязвимостей. Анализ различных стратегий защиты продемонстрировал эффективность некоторых базовых мер против простых атак, однако нападения, адаптирующиеся к методам защиты, представляют собой растущую угрозу.

Специалисты компании отметили, что несмотря на успешное повышение защиты модели к атакам с косвенными внедрениями, ни одна модель не может быть полностью защищена. Всеобъемлющая безопасность требует многоуровневого подхода — сочетания внешних защитных мер и внутренней способности моделей игнорировать злонамеренные инструкции.

Укрепление модели, или модельное хардирование, позволило существенно повысить способность Gemini идентифицировать и отклонять внедрённые команды, что снижает вероятность успешного взлома. DeepMind подчеркивает, что постоянное развитие защиты моделей является ключевым элементом уверенности в их надежности в будущем.