Google анонсировала запуск нового классификационного модель контента под названием ShieldGemma2, предназначенной для фильтрации изображений, содержащих сексуально откровенные, жестокие или опасные материалы. Эта «прочная классификация безопасности изображений» позволяет пользователям настраивать индивидуальные политики модерации в зависимости от их потребностей.
ShieldGemma2 доступен для скачивания совершенно бесплатно и демонстрирует улучшенные результаты по сравнению с другими моделями, используемыми в области модерации контента, такими как исходная версия Gemma 3, LLavaGuard 7B и GPT-4o-mini. Пользователи могут адаптировать модель под свои нужды, однако её работа на других категориях контента может быть менее эффективной.
Эта инициатива имеет огромное значение на фоне растущих опасений о безопасности контента, генерируемого с помощью искусственного интеллекта. В последние годы большинство разработчиков AI пытались внедрять безопасность непосредственно в базовые модели, что иногдаозначало излишнюю строгую цензуру. Однако прогресс в технологиях AI позволяет создавать меньшие и более умные модели, такие как ShieldGemma, которые можно включать в существующие системы для дополнительной модерации.
Эта новинка подчеркивает не только стремление Google к улучшению безопасности контента, но и более широкие изменения в подходах к управлению рисками, связанных с моделями AI в целом. Теперь, когда пользователи могут создавать свои собственные модерационные пайплайны, это открывает новые возможности для адаптации и управления данными.
