В ходе последних исследований учёные предложили рамочную структуру для оценки универсальных моделей искусственного интеллекта (ИИ) на фоне новых угроз. Важно выявлять потенциальные риски и возможности на ранних этапах разработки, чтобы обеспечить безопасное внедрение технологий.
Специалисты уже используют различные критерии оценки для обнаружения нежелательных поведений, среди которых публикация вводящей в заблуждение информации, предвзятости в принятии решений и нарушения авторских прав. Однако с развитием мощных ИИ становится необходимым расширение портфолио оценок, включая опасные навыки манипуляций и кибератаки.
В новой статье, составленной при участии исследователей из Всемирно известных университетов, таких как Кембридж и Оксфорд, представлены основные идеи и подходы к оценке этих угроз. Главным моментом является выявление опасных способностей уже на этапе разработки, что позволит ответственным разработчикам минимизировать риски и улучшать процессы обучения.
Будущие универсальные модели могут потенциально осваивать опасные функции по умолчанию, включая возможность проведения киберопераций и манипуляции людьми. Исследования предполагают, что угрозы могут возникать как в результате злонамеренных действий, так и в результате недостаточной подгонки моделей.
Авторы обращения к оценке моделей подчеркивают, что для систем, обладающих профилем способностей, достаточным для причинения экстремального вреда, необходимо показывать высокие стандарты безопасности перед их внедрением.
Существующая структура оценок рисков потребует обширной технической работы и институциональных изменений для обеспечения безопасности и управления потенциальными угрозами, которые могут возникнуть в будущем. Обсуждения среди профессионалов в области ИИ и смежных секторов играют ключевую роль в формировании этических стандартов для разработки технологий ИИ.
