Anthropic раскрывает внутренние механизмы работы больших языковых моделей

Компания Anthropic представила новый метод анализа больших языковых моделей, таких как Claude, который впервые позволит заглянуть внутрь этих AI-систем и понять, как они обрабатывают информацию и принимают решения. Исследование, опубликованное сегодня в двух статьях, демонстрирует, что данные модели более сложны, чем считалось ранее — они могут планировать, когда пишут поэзию, использовать один и тот же внутренний шаблон для интерпретации идей на разных языках и даже иногда работать назад от желаемого результата, а не просто накапливать факты.

Эта работа базируется на методах нейробиологии, что представляет собой значительный шаг вперед в интерпретируемости искусственного интеллекта. Разработанный подход может позволить исследователям проверять эти системы на предмет скрытых проблем безопасности, которые могут оставаться незамеченными во время традиционного внешнего тестирования.

«Мы создали эти AI-системы с замечательными возможностями, но из-за способа, которым они обучены, мы не понимали, как эти способности на самом деле возникли», — отметил исследователь Anthropic Джошуа Батсон в эксклюзивном интервью. Большие языковые модели, такие как GPT-4o от OpenAI, Claude от Anthropic и Google Gemini, продемонстрировали замечательные возможности, от написания кода до синтеза научных статей. Однако эти системы чаще всего функционировали как «черные ящики» — даже их создатели не всегда понимают, как именно они приходят к определенным ответам.

Новые методы интерпретируемости Anthropic, получившие название «системы трассировки цепей» и «графы атрибуции», позволяют исследователям отслеживать конкретные пути активации нейроноподобных функций при выполнении задач моделями. Также было установлено, что Claude планирует наперед при написании поэзии, активируя слова, рифмующиеся с концом следующей строки, еще до начала написания. Это подтверждает уровень сложности, который удивил самих исследователей Anthropic.

Также исследование обнаружило, что Claude проводит многослойное мышление. Например, в тесте, где спрашивают: «Столица штата, в котором находится Даллас…» модель сначала активирует функции, представляющие «Техас», а затем использует это представление для определения «Остин» как правильного ответа, что указывает на наличие цепочки рассуждений, а не на простую регуритацию запомненных ассоциаций.

Другим важным открытием стало то, как Claude обрабатывает несколько языков, переводя концепции в общее абстрактное представление. Положительные результаты данной работы открывают новые возможности для более безопасных и прозрачных AI-систем, в частности, в вопросах предотвращения недостоверной информации и управления рисками использования.