Презентация инструмента Gemma Scope для интерпретации языковых моделей

Исследователи анонсировали Gemma Scope, новый набор инструментов, предназначенный для интерпретации языковых моделей на основе автокодировщиков. Эта инициатива направлена на изучение внутренней структуры и работы языковой модели Gemma 2.

Gemma Scope представляет собой коллекцию открытых автомобилеров, которые помогут ученым глубже понять, как функционируют языковые модели. В набор входят сотни свободно доступных автокодировщиков для Gemma 2 9B и 2B, а также инструмент Mishax, который был ключевым в разработке Gemma Scope.

Данная выпущенная разработка открывает новые горизонты для исследований в области интерпретируемости ИИ, повышая возможность создания более надежных систем и улучшая защиту от возможных аномалий и манипуляций со стороны автономных агентов, работающих с ИИ.

Активности в модели, которые отслеживает Gemma Scope, предоставляют понимание связи между вводимым текстом и образующимися ответами. Используя автокодировщики, исследователи могут выявить подлежащие особенности, как это было сделано ранее для малых моделей. В проекте также представлен новый JumpReLU архитектурный подход, который оптимизирует баланс между обнаружением особенностей и оценкой их силы.

Разработка Gemma Scope потребовала значительных вычислительных мощностей и ресурсов, включая сохранение 20 Пебибайт данных активации, что эквивалентно миллиону копий английской Википедии. Команда надеется, что этот инструмент ускорит исследования в области интерпретируемости и поможет применить полученные знания для решения практических задач, связанных с большими моделями.

Gemma Scope стал результатом совместной работы нескольких исследователей, которые стремятся продвигать границы понимания языковых моделей и их сложности.