Китайский AI-стартап DeepSeek анонсировал обновление своей языковой модели, получившей название DeepSeek-V3-0324, которое теперь доступно на платформе Hugging Face. Модель массой 641 гигабайт уже начинает оказывать влияние на рынок искусственного интеллекта, не только благодаря своим улучшенным возможностям, но и особенностям развертывания.
Что делает эту версию особенно примечательной, так это наличие лицензии MIT, что позволяет свободно использовать модель в коммерческих целях. Ранее зафиксированные данные показывают, что DeepSeek-V3-0324 может работать непосредственно на потребительском оборудовании, таком как Mac Studio с чипом M3 Ultra, что является значительным шагом вперёд.
Согласно сообщениям первых тестировщиков, новая модель продемонстрировала значительные улучшения по сравнению с предшественником, обгоняя конкурирующие решения в ряде бенчмарков. Объем модельных параметров составляет 685 миллиардов, при этом новая архитектура Mixture-of-Experts (MoE) активирует только 37 миллиардов параметров для выполнения конкретных задач, что делает её более эффективной, чем традиционные модели.
DeepSeek-V3-0324 также внедрила ряд инновационных технологий, включая Multi-Head Latent Attention (MLA) и Multi-Token Prediction (MTP), которые усиливают способность модели поддерживать контекст на протяжении длинных текстов и увеличивают скорость генерации.
Эта модель представляется как важный этап в развитии китайского AI-сектора, которая может сформировать новую парадигму использования искусственного интеллекта, позволяя исследователям и стартапам более эффективно строить свои разработки без больших капиталовложений. В условиях глобальной гонки технологий, такое открытое распространение может значительно ускорить аналитические и технологические возможности Китая, что заметно уменьшает разрыв с ведущими игроками на рынке.
