DeepSeek V4-Pro обходит Claude и GPT, став лучшей открытой моделью

DeepSeek V4-Pro обходит Claude и GPT, став лучшей открытой моделью

Китайский ИИ-стартап DeepSeek опубликовал превью новой линейки языковых моделей. Флагманская V4-Pro обошла Claude Opus 4.6 и GPT-5.4, став лучшей открытой системой.

Архитектура и масштаб

V4-Pro насчитывает около 1,6 трлн параметров, но на каждом шаге использует только 49 млрд. У второй версии — V4-Flash — общий масштаб составляет 284 млрд, из которых активируются 13 млрд.

Обе модели построены на архитектуре «смеси экспертов» (Mixture of Experts, MoE): при обработке каждого токена включается только та часть подсетей, которая релевантна задаче. Такой подход дешевле полностью плотных архитектур, но не уступает им в производительности.

Предобучение проходило на корпусе объемом более 32 трлн токенов. Затем разработчики дообучили модели поэтапно, выделив отдельные блоки для кодинга, математики, логики и следования инструкциям. Финальная версия сводит эти навыки воедино с помощью дистилляции.

Длинный контекст стал дешевле

Ключевым отличием V4 стала оптимизация обработки длинных последовательностей. Контекстное окно в 1 млн токенов есть и у других моделей, но его использование обычно сопряжено с высокой стоимостью и задержками.

В DeepSeek заявили, что новая версия заметно снизила ресурсоемкость таких операций. По сравнению с V3.2, V4-Pro требует около 27% вычислений и 10% памяти KV-кэша при работе с максимальным контекстом. Для V4-Flash показатели составляют примерно 10% и 7% соответственно.

DeepSeek V4-Pro обходит Claude и GPT, став лучшей открытой моделью

Источник: Hugging Face.

Команда добилась результата благодаря гибридной архитектуре внимания: два механизма сжимают данные и снижают нагрузку при работе с длинными текстами. Также использовались специальные гиперсвязи для стабильности и оптимизатор Muon для ускорения обучения.

Режимы рассуждения и агентные возможности

DeepSeek V4 поддерживает три режима рассуждений:

  1. Non-think — быстрые ответы на простые вопросы без дополнительного анализа.
  2. Think High — глубокий анализ для сложных задач и планирования.
  3. Think Max — максимальный режим: модель прописывает каждый шаг и проверяет все варианты.

В агентных задачах режим Max теперь сохраняет цепочку промежуточных шагов внутри одной задачи. В предыдущей версии часть такого контекста терялась при взаимодействии с пользователем.

Результаты тестирования

По данным DeepSeek, флагманская версия демонстрирует результаты, сопоставимые с ведущими системами в ряде направлений:

  • в задачах по программированию на Codeforces модель достигла рейтинга 3206 — 23 место среди живых программистов мира, паритет с GPT-5.4;
  • в математике показала 95,2 на HMMT 2026 и 89,8 на IMOAnswerBench, опередив большинство конкурентов;
  • в знаниях SimpleQA Verified — 57,9 (Opus 4.6 — 46,2, но Gemini 3.1 Pro — 75,6).
  • в ризонинге модели отстают от GPT-5.4 и Gemini 3.1 Pro только на три-шесть месяцев;
  • во внутреннем тесте DeepSeek, включающем задачи разработки, отладки и рефакторинга, модель достигла 67% — между Sonnet 4.5 (47%) и Opus 4.5 (70%);
  • в агентных сценариях и задачах разработки V4-Pro-Max продемонстрировала 80,6% на SWE Verified и 67,9% на Terminal Bench.
  • DeepSeek V4-Pro обходит Claude и GPT, став лучшей открытой моделью

    Источник: Hugging Face.

    V4 специально тренировали на реальных сценариях: анализ данных, отчеты, редактирование документов, поиск в интернете с итеративным использованием инструментов.

    Для оценки пригодности модели в реальной разработке стартап провел внутреннее тестирование на задачах своих инженеров. В опросе 85 разработчиков и исследователей 52% заявили, что готовы использовать V4-Pro как основную модель для кодинга, еще 39% отметили, что склоняются к такому решению.

    Напомним, 23 апреля компания OpenAI выпустила GPT-5.5. Модель позиционируется как «новый уровень интеллекта для реальной работы и управления агентами».

    Источник

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *

    Bitcoin

    В России запретят упоминание биткоина в рекламе

    Российские власти собираются запретить использовать в рекламных объявлениях, роликах, публикациях названия конкретных цифровых валют, включая биткоин. Поправки появятся ко второму чтению правительственного законопроекта о контроле за криптоактивами, сообщила директор департамента стратегического развития финансового рынка Банка России Екатерина Лозгачева. Использовать в рекламе слова «эфир», «Solana» и любые другие наименования токенов тоже нельзя. По мнению Центробанка, криптовалюта […]

    Читать дальше
    Bitcoin

    Легализация майнинга в России привела к закрытию крупных проектов

    Легализация майнинга в России привела к результату, противоположному ожидаемому государством. Появившиеся вместе с легализацией запреты и рост издержек вынудили часть майнеров отказаться от развития бизнеса или полностью прекратить работу, рассказали изданию РБК представители рынка. Одним из заметных примеров последствий применения новых правил стала ситуация вокруг крупнейшего промышленного майнера, компании BitRiver. Запрет на добычу криптовалюты в […]

    Читать дальше
    Bitcoin

    Сбербанк строит криптоинфраструктуру в ожидании закона

    Сбербанк приступил к созданию инфраструктуры для операций с криптовалютой, не дожидаясь окончательного принятия соответствующего законодательства. Первый заместитель председателя правления банка Александр Ведяхин сообщил о ведущемся диалоге с Центробанком и назвал принятие профильного законопроекта в первом чтении позитивным шагом, выразив уверенность в его скором прохождении через второе чтение. Что разрешит новый закон — и на каких […]

    Читать дальше