Команда, занимающаяся интерпретацией языковых моделей, объявила о запуске нового набора инструментов под названием Gemma Scope, который позволит исследователям лучше понять внутренние механизмы легковесной семьи открытых моделей Gemma 2. Данная программа включает в себя несколько сотен свободно доступных разреженных автоэнкодеров (SAEs) для Gemma 2 9B и 2B.
Виртуальные языковые модели обучаются на огромных объемах данных без вмешательства человека, что делает их внутренние процессы часто непонятными даже для их создателей. Исследования в области механистической интерпретации направлены на расшифровку этих таинственных механизмов, и Gemma Scope создана именно с этой целью.
С помощью нового инструмента исследователи смогут проводить более амбициозные исследования в области интерпретации, что, в свою очередь, может привести к созданию более надежных систем и разработке лучших мер предосторожности против некорректных ответов моделей и рисков, связанных с автономными ИИ-агентами, таких как обман или манипуляции.
Gemma Scope включает в себя инновационную архитектуру JumpReLU, которая значительно улучшает баланс между определением присутствующих признаков и оценкой их силы. Эта архитектура была разработана с целью решения проблем, с которыми сталкивались предыдущие модели.
Обучение такого количества разреженных автоэнкодеров стало значительной инженерной задачей, требующей огромных вычислительных ресурсов. В процессе создания Gemma Scope было потрачено около 15% вычислительных мощностей для обучения модели Gemma 2 9B и сохранено около 20 Пибибайт активаций.
С выходом Gemma Scope команда надеется сделать Gemma 2 лучшей моделью для открытых исследований механистической интерпретации и на ускорение работы сообщества в данной области.
