Компания Anthropic раскрыла новые механизмы работы больших языковых моделей

Компания Anthropic представила значительные достижения в области изучения работы больших языковых моделей (LLM), разработав метод, позволяющий заглянуть внутрь модели и наблюдать за процессом генерации ответов. Это открытие предоставляет научному сообществу новые ключевые идеи о том, как функционируют языковые модели.

Исследовательская команда Anthropic удивлена тем, какие парадоксальные стратегии применяют большие языковые модели для завершения предложений, решения простых математических задач и подавления «галлюцинаций». Как сообщает Джошуа Батсон, научный сотрудник компании, понимание структуры внутренних процессов моделей может не только облегчить исследование их недостатков, но и разрешить существующие споры о возможностях и надежности LLM.

В своих отчетах команда описывает использование техники, известной как трассировка цепей (circuit tracing), которая позволяет отслеживать процесс принятия решений внутри модели шаг за шагом. Это позволяет исследователям увидеть пути, по которым отдельные компоненты модели взаимосвязаны, а также понять, как они генерируют текстовые ответы.

В новом исследовании команда Anthropic рассмотрела, как модель Claude 3.5 выполняет разные задачи, включая решение математических задач и генерацию поэзии. Ученые обнаружили, что Claude использует языково-нейтральные компоненты для поиска ответов, выбирая конкретный язык только в момент ответа на запрос. Это говорит о том, что модели могут усваивать информацию на одном языке и применять ее на другом.

Кроме того, исследования показали, что Claude развил собственные стратегии для решения математических задач, которые отличаются от методов, известных из обучающих данных. Например, модель применяет последовательный подход к сложению, что поднимает вопросы о том, как она на самом деле решает подобные задачи.

Несмотря на успехи, команда предупреждает, что истинный механизм формирования этих моделей во время обучения остается непонятным, и дальнейшие исследования необходимы для более глубокого понимания их функционирования. Это открытие ставит новые перспективы для разработки более эффективных и надежных языковых моделей, что может радикально улучшить их применение в различных сферах.