DeepSeek V4-Pro обходит Claude и GPT, став лучшей открытой моделью

DeepSeek V4-Pro обходит Claude и GPT, став лучшей открытой моделью

Китайский ИИ-стартап DeepSeek опубликовал превью новой линейки языковых моделей. Флагманская V4-Pro обошла Claude Opus 4.6 и GPT-5.4, став лучшей открытой системой.

Архитектура и масштаб

V4-Pro насчитывает около 1,6 трлн параметров, но на каждом шаге использует только 49 млрд. У второй версии — V4-Flash — общий масштаб составляет 284 млрд, из которых активируются 13 млрд.

Обе модели построены на архитектуре «смеси экспертов» (Mixture of Experts, MoE): при обработке каждого токена включается только та часть подсетей, которая релевантна задаче. Такой подход дешевле полностью плотных архитектур, но не уступает им в производительности.

Предобучение проходило на корпусе объемом более 32 трлн токенов. Затем разработчики дообучили модели поэтапно, выделив отдельные блоки для кодинга, математики, логики и следования инструкциям. Финальная версия сводит эти навыки воедино с помощью дистилляции.

Длинный контекст стал дешевле

Ключевым отличием V4 стала оптимизация обработки длинных последовательностей. Контекстное окно в 1 млн токенов есть и у других моделей, но его использование обычно сопряжено с высокой стоимостью и задержками.

В DeepSeek заявили, что новая версия заметно снизила ресурсоемкость таких операций. По сравнению с V3.2, V4-Pro требует около 27% вычислений и 10% памяти KV-кэша при работе с максимальным контекстом. Для V4-Flash показатели составляют примерно 10% и 7% соответственно.

DeepSeek V4-Pro обходит Claude и GPT, став лучшей открытой моделью

Источник: Hugging Face.

Команда добилась результата благодаря гибридной архитектуре внимания: два механизма сжимают данные и снижают нагрузку при работе с длинными текстами. Также использовались специальные гиперсвязи для стабильности и оптимизатор Muon для ускорения обучения.

Режимы рассуждения и агентные возможности

DeepSeek V4 поддерживает три режима рассуждений:

  1. Non-think — быстрые ответы на простые вопросы без дополнительного анализа.
  2. Think High — глубокий анализ для сложных задач и планирования.
  3. Think Max — максимальный режим: модель прописывает каждый шаг и проверяет все варианты.

В агентных задачах режим Max теперь сохраняет цепочку промежуточных шагов внутри одной задачи. В предыдущей версии часть такого контекста терялась при взаимодействии с пользователем.

Результаты тестирования

По данным DeepSeek, флагманская версия демонстрирует результаты, сопоставимые с ведущими системами в ряде направлений:

  • в задачах по программированию на Codeforces модель достигла рейтинга 3206 — 23 место среди живых программистов мира, паритет с GPT-5.4;
  • в математике показала 95,2 на HMMT 2026 и 89,8 на IMOAnswerBench, опередив большинство конкурентов;
  • в знаниях SimpleQA Verified — 57,9 (Opus 4.6 — 46,2, но Gemini 3.1 Pro — 75,6).
  • в ризонинге модели отстают от GPT-5.4 и Gemini 3.1 Pro только на три-шесть месяцев;
  • во внутреннем тесте DeepSeek, включающем задачи разработки, отладки и рефакторинга, модель достигла 67% — между Sonnet 4.5 (47%) и Opus 4.5 (70%);
  • в агентных сценариях и задачах разработки V4-Pro-Max продемонстрировала 80,6% на SWE Verified и 67,9% на Terminal Bench.
  • DeepSeek V4-Pro обходит Claude и GPT, став лучшей открытой моделью

    Источник: Hugging Face.

    V4 специально тренировали на реальных сценариях: анализ данных, отчеты, редактирование документов, поиск в интернете с итеративным использованием инструментов.

    Для оценки пригодности модели в реальной разработке стартап провел внутреннее тестирование на задачах своих инженеров. В опросе 85 разработчиков и исследователей 52% заявили, что готовы использовать V4-Pro как основную модель для кодинга, еще 39% отметили, что склоняются к такому решению.

    Напомним, 23 апреля компания OpenAI выпустила GPT-5.5. Модель позиционируется как «новый уровень интеллекта для реальной работы и управления агентами».

    Источник

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *

    Bitcoin

    TON обрабатывает транзакции в 6000 раз лучше биткоина

    Основатель Telegram Павел Дуров представил данные, согласно которым блокчейн The Open Network (TON) подтверждает транзакции за 0.6 секунды. Этот показатель выводит TON на первое место среди блокчейнов первого уровня (Layer 1). Для сравнения: биткоину для окончательного расчета требуется около часа. Статистика появилась спустя несколько недель после обновления основной сети TON, которое позволило сократить время финализации […]

    Читать дальше
    Bitcoin

    Артур Хейс: Clarity act ничего не дает для биткоина

    Артур Хейс уверен, что ценовая динамика биткоина не зависит от нормативных инициатив, включая «Закон о ясности». По его мнению, биткоин как раз противостоит системе, в том числе фиатной, поэтому его регулирование важно бизнесу. На конференции Consensus 2026 Артур Хейс отметил, что «Закон о ясности» (Clarity Act) демонстрирует фундаментальное непонимание сути биткоина. Любая попытка вписать его […]

    Читать дальше
    Bitcoin

    Tether выпустили медицинскую нейросеть

    Эмитент крупнейшего стейблкоина USDT компания Tether продолжает экспансию в сферу искусственного интеллекта. Ее исследовательское подразделение представило медицинскую языковую модель QVAC MedPsy, способную работать локально на смартфонах и носимых устройствах. По заявлению в пресс-релизе, продукт компании конкурирует по эффективности с более крупными аналогами техгигантов, таких как Google. Об этом пишет РБК Крипто. Новая модель решает одну […]

    Читать дальше