Новое исследование предлагает框架 для оценки моделей ИИ на предмет новых угроз

Недавние исследования в области искусственного интеллекта (ИИ) предложили новый подход для оценки общих моделей по сравнению с потенциальными угрозами. В работе, соавтором которой является Тоби Шевлан, представлена рамка для оценки мощных ИИ-систем на наличие опасных способностей, таких как манипуляция, обман и кибератаки.

Исследователи ИИ уже используют различные критерии оценки, чтобы выявлять нежелательные поведения, включая принятие предвзятых решений. Однако с разработкой более мощных моделей ИИ необходимо расширить эти оценки за счет анализа потенциальных экстремальных рисков, связанных с новыми возможностями, которые могут быть использованы злоумышленниками.

В рамках нового подхода акцент сделан на раннем выявлении рисков, что позволит разработчикам более ответственно обучать ИИ, внедрять эти системы и честно описывать их риски. Модели, обладающие высокой степенью угрозы, должны подвергаться тщательной оценке, чтобы гарантировать их безопасность при развертывании в реальном мире.

Авторы исследования отмечают, что важным моментом является выявление не только потенциально опасных возможностей, но и их сочетания в модели. Понимание этих рисков поможет компании и регулирующим органам лучше контролировать безопасность ИИ. В то же время подчеркивается, что оценка моделей не является универсальным средством, и для эффективного управления рисками необходимо комбинировать оценку с другими инструментами анализа и более широкой приверженностью стандартам безопасности в индустрии и обществе.

Разработчики ИИ призваны учитывать возможные угрозы и активно сотрудничать с экспертами в области безопасности, чтобы гарантировать безопасное и этическое развертывание технологий ИИ.