Исследователи из Together AI и Agentica анонсировали релиз модели глубокого обучения DeepCoder-14B, которая продемонстрировала впечатляющие результаты, сопоставимые с ведущими коммерческими моделями, такими как o3-mini от OpenAI. Модель, основанная на DeepSeek-R1, предлагает больше гибкости для интеграции высокопроизводительного кодогенератора и логического вывода в реальные приложения.
Ключевым моментом является полностью открытый исходный код модели, данные для её обучения и оптимизации, размещенные на GitHub и Hugging Face. Это позволит исследователям улучшить свои разработки и ускорить прогресс в данной области. DeepCoder-14B успешно прошел несколько сложных кодировочных проверок, включая LiveCodeBench, Codeforces и HumanEval+.
В своей публикации исследователи сообщают, что модель достигла 73.8% на AIME 2024, что на 4.1% лучше, чем у базовой модели, что демонстрирует, что навыки вывода, развиваемые через обучение с подкреплением на коде, могут быть эффективно обобщены на другие области.
Несмотря на свои 14 миллиардов параметров, DeepCoder-14B значительно меньше и эффективнее в использовании, чем многие современное модели. Процесс обучения, использовавший алгоритм Group Relative Policy Optimization (GRPO), включает в себя строгую фильтрацию данных и инновационные методы, такие как One-Off Pipelining, что позволило сократить время обучения до 2.5 недель на вычислительных платформах.
Разработка этой модели отражает растущую тенденцию к созданию высокоэффективных и открытых моделей в области искусственного интеллекта, что является важным шагом к более широкому доступу к передовым технологиям и снижению барьеров для их использования в различных сферах бизнеса.
