Недавнее исследование, опубликованное анонимными авторами, освещает потенциальные недостатки в методах оценки jailbreak для больших языковых моделей (LLM), таких как GPT-4. Исследователи попытались воспроизвести результаты работы, в которой утверждалось, что перевод запрещенных запросов на редкие языки позволяет успешно обойти защиту модели. Однако результаты оказались менее впечатляющими, чем ожидалось, с низким качеством ответов на опасные запросы.
В исследовании упоминается, что оригинальная работа сообщала о 43% успеха в jailbreaking GPT-4 на гэльском, но последующие попытки воспроизвести результаты выявили, что реальные ответы были неопределенными и не содержали полезных инструкций. Исследователи делают вывод, что текущие методы оценки jailbreak имеют серьезные недостатки, так как акцент делается на готовности моделей реагировать на запрещенные запросы, а не на качестве их ответов.
Для улучшения ситуации, команда разработала новый стандарт для оценки jailbreak, называемый StrongREJECT, который включает качественный набор данных и автоматизированные методы оценки. Выводы исследования подчеркивают важность использования высококачественных, стандартизированных методов при тестировании мер безопасности AI, предоставляя более точную оценку эффективности jailbreak.
Это исследование также предостерегает о тенденции к снижению способностей моделей после применения jailbreak, что может привести к нежелательным последствиям для их производительности и полезности. Выбор эффективных методов jailbreak, таких как PAIR и PAP, был подчеркивается как более приоритетный в новых тестах.
