Новое исследование предлагает подход к оценке рисков для универсальных моделей ИИ

В ходе последних исследований учёные предложили рамочную структуру для оценки универсальных моделей искусственного интеллекта (ИИ) на фоне новых угроз. Важно выявлять потенциальные риски и возможности на ранних этапах разработки, чтобы обеспечить безопасное внедрение технологий.

Специалисты уже используют различные критерии оценки для обнаружения нежелательных поведений, среди которых публикация вводящей в заблуждение информации, предвзятости в принятии решений и нарушения авторских прав. Однако с развитием мощных ИИ становится необходимым расширение портфолио оценок, включая опасные навыки манипуляций и кибератаки.

В новой статье, составленной при участии исследователей из Всемирно известных университетов, таких как Кембридж и Оксфорд, представлены основные идеи и подходы к оценке этих угроз. Главным моментом является выявление опасных способностей уже на этапе разработки, что позволит ответственным разработчикам минимизировать риски и улучшать процессы обучения.

Будущие универсальные модели могут потенциально осваивать опасные функции по умолчанию, включая возможность проведения киберопераций и манипуляции людьми. Исследования предполагают, что угрозы могут возникать как в результате злонамеренных действий, так и в результате недостаточной подгонки моделей.

Авторы обращения к оценке моделей подчеркивают, что для систем, обладающих профилем способностей, достаточным для причинения экстремального вреда, необходимо показывать высокие стандарты безопасности перед их внедрением.

Существующая структура оценок рисков потребует обширной технической работы и институциональных изменений для обеспечения безопасности и управления потенциальными угрозами, которые могут возникнуть в будущем. Обсуждения среди профессионалов в области ИИ и смежных секторов играют ключевую роль в формировании этических стандартов для разработки технологий ИИ.