DeepSeek AI представила новую методику моделирования вознаграждений для языковых моделей

Исследовательская лаборатория DeepSeek AI из Китая, известная своими мощными открытыми языковыми моделями, такими как DeepSeek-R1, представила значительное усовершенствование в области моделирования вознаграждений для больших языковых моделей (LLMs).

Новая техника, получившая название Self-Principled Critique Tuning (SPCT), направлена на создание универсальных и масштабируемых моделей вознаграждений (RMs). Это может привести к более эффективным AI-приложениям для открытых задач и областей, где существующие модели не способны учитывать нюансы и сложности окружающей среды и пользователя.

Обучение с подкреплением (RL) стало краеугольным камнем разработки современных LLM. На основе сигналов обратной связи, указывающих на качество ответов, модели оптимизируются для улучшения своих ответов. Модели вознаграждения являются критическим компонентом, предоставляющим такие сигналы.

Тем не менее, текущие модели вознаграждения часто ограничены в узконаправленных областях с четкими правилами. Ученые, работающие в DeepSeek, указывают, что создание модели вознаграждения для сложных, открытых или субъективных запросов остается значительной проблемой.

В своей работе исследователи выделяют четыре ключевые проблемы в создании универсальных моделей вознаграждений, способных обрабатывать более широкие задачи. Предложенная методика SPCT позволяет GRM динамически генерировать принципы и критики на основе запросов и ответов, улучшая качество вознаграждений.

Команда глубоко протестировала SPCT на модели Gemma-2-27B, созданной Google, и обнаружила, что новшество значительно повысило эффективность и масштабируемость в сравнении со стандартной оптимизацией. Результаты показали, что модификация способствует более точному определению вознаграждений за счет разнообразия признаков и вывода.

DeepSeek-GRM уже продемонстрировала выдающиеся результаты в сайтах сравнительного анализа, подтверждая, что метод SPCT способен обрабатывать задачи с высокой степенью сложности более эффективно.