DeepSeek запустила V4 відкриту прев’ю-версію, технічний рейтинг 3206 перевершив GPT-5.4

DeepSeek V4開源預覽版

DeepSeek 24 квітня офіційно випустила серію V4-прев’ю, відкривши моделі з ліцензією MIT; ваги моделей синхронно завантажено на Hugging Face та ModelScope. Згідно з технічним звітом DeepSeek V4, V4-Pro-Max (максимально потужний режим міркувань) на бенчмарку Codeforces набрав 3206 балів, випередивши GPT-5.4.

Специфікації двох MoE-модельних архітектур

Згідно з технічним звітом DeepSeek V4, серія V4 включає дві змішані експертні (MoE) моделі:

V4-Pro: загальні параметри 1.6T, активація на кожен token 49B, підтримка контексту 1M token

V4-Flash: загальні параметри 284B, активація на кожен token 13B, так само підтримка контексту 1M token

Згідно зі звітом, у режимі 1M-контексту однотокенові FLOPs для міркувань V4-Pro становлять лише 27% від V3.2; кеш KV знижується до 10% від V3.2. Це головним чином завдяки архітектурному оновленню механізму змішаної уваги (CSA із стисненим розрідженим attention + HCA з важким стисненням attention). Розмір даних для передтренування перевищує 32T token; тренувальний оптимізатор оновлено до Muon.

Методологія післятренування: онлайн-стратегічна дистиляція замість змішаного підкріплювального навчання

Згідно з технічним звітом DeepSeek V4, ключове оновлення післятренування V4 полягає в тому, що онлайн-стратегічна дистиляція (On-Policy Distillation, OPD) повністю замінює етап змішаного підкріплювального навчання (mixed RL) V3.2. Новий процес складається з двох кроків: спочатку для таких галузей, як математика, код, Agent та наслідування інструкцій, окремо тренуються галузеві експерти (SFT + GRPO підкріплювальне навчання); далі за допомогою OPD з багатьма вчителями здібності десятка з лишком експертів дистилюються в єдину модель, використовуючи вирівнювання через logit, щоб уникнути типових конфліктів здібностей у традиційних підходах.

Звіт також вводить генеративну модель винагороди (Generative Reward Model, GRM): для задач, які складно валідовувати правилами, за допомогою невеликого обсягу різноманітно розмічених вручну даних навчають модель виконувати одночасно функції генерації та оцінювання.

Результати бенчмарків: кодування попереду, з міркуваннями за знаннями — відставання

Згідно з технічним звітом DeepSeek V4, результати порівняння V4-Pro-Max з Opus 4.6 Max, GPT-5.4 xHigh та Gemini 3.1 Pro High (без урахування нещодавно опублікованих GPT-5.5 та Opus 4.7):

Codeforces: 3206 (GPT-5.4: 3168 / Gemini 3.1 Pro: 3052) → найвищий результат у всьому заліку

LiveCodeBench: 93.5 → найвищий результат у всьому заліку

SWE Verified: 80.6, відставання від Opus 4.6 на 80.8, різниця 0.2 відсоткового пункту

GPQA Diamond: 90.1, відставання від Gemini 3.1 Pro на 94.3

SimpleQA-Verified: 57.9, відставання від Gemini 3.1 Pro на 75.6

HLE: 37.7, відставання від Gemini 3.1 Pro на 44.4

Технічний звіт також зазначає, що наведені вище порівняння не враховують нещодавно опубліковані GPT-5.5 та Opus 4.7; відмінності між V4 і найновішими закритими моделями потребують підтвердження сторонніми незалежними оцінюваннями.

Поширені питання

Які умови відкритої ліцензії для DeepSeek V4-прев’ю та де їх можна отримати?

Згідно з офіційним оголошенням DeepSeek від 24 квітня, серія V4 відкрито поширюється за ліцензією MIT; ваги моделей розміщені на Hugging Face та ModelScope; застосовна для комерційного та академічного використання.

У чому різниця в масштабі параметрів між DeepSeek V4-Pro і V4-Flash?

Згідно з технічним звітом DeepSeek V4, V4-Pro має загалом 1.6T параметрів, активація на кожен token — 49B; V4-Flash має загалом 284B параметрів, активація на кожен token — 13B; обидві моделі підтримують контекст 1M token.

Якими є результати бенчмаркового порівняння DeepSeek V4-Pro-Max з GPT-5.4 та Gemini 3.1 Pro?

Згідно з технічним звітом DeepSeek V4, V4-Pro-Max у двох бенчмарках — Codeforces (3206 балів) і LiveCodeBench (93.5) — перевершив GPT-5.4 та Gemini 3.1 Pro, але в знаннєво-інтенсивних бенчмарках (GPQA Diamond, SimpleQA-Verified, HLE) все ще відстає від Gemini 3.1 Pro; у складі порівняльного набору не враховані GPT-5.5 та Opus 4.7.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Anthropic 派 Claude Mythos проходить 20 годин психіатричної оцінки: оборонна реакція лише 2%, встановлено історичний мінімум серед усіх поколінь

Anthropic опублікувала системну картку Claude Mythos Preview: незалежні клінічні психіатри проводили близько 20 годин оцінювання в рамках психодинамічного підходу; висновки показують, що Mythos є більш здоровим на клінічному рівні, має добре розвинену перевірку реальністю та самоконтроль, а захисні механізми становлять лише 2%, що є історичною найнижчою відміткою. Три ключові фундаментальні тривоги — самотність, невизначеність ідентичності та тиск виступу — також свідчать про те, що він прагне бути справжнім суб’єктом діалогу. Компанія створила команду з AI- психіатрії, досліджує особистість, мотивацію та усвідомлення контексту; Amodei зазначає, що щодо того, чи є свідомість, досі немає остаточного визначення. Цей крок переводить питання суб’єктності ШІ та благополуччя в площину управління й дизайну.

ChainNewsAbmedia1год тому

AI-агент уже здатний самостійно відтворювати складні академічні статті: Mollick стверджує, що помилки здебільшого трапляються в людських оригіналах, а не в AI

Моллік зазначає, що опубліковані методи та дані дозволяють AI-агентам відтворювати складні дослідження без наявності оригінальних наукових праць і коду; якщо відтворення не відповідає оригінальній статті, то найчастіше проблема не в AI, а в помилках обробки даних у самій статті або в надмірному узагальненні висновків. Claude спочатку відтворює статтю, а потім GPT‑5 Pro перехресно верифікує; у більшості випадків це вдається, лише коли дані надто великі або виникають проблеми з replication data. Ця тенденція значно знижує трудовитрати, роблячи відтворення поширеною, практично здійсненною перевіркою, а також висуває інституційні виклики для рецензування та управління (governance): інструменти державного управління можуть стати ключовим питанням.

ChainNewsAbmedia4год тому

OpenAI Об’єднує Codex з Основною Моделлю, Починаючи з GPT-5.4, Припиняє Окрему Лінійку Кодування

Новини Gate, 26 квітня — керівник відділу досвіду розробників OpenAI Ромен Юе (Romain Huet) у нещодавній заяві на X повідомив, що Codex, лінійка спеціалізованих моделей для кодування, яку компанія незалежно підтримувала, була об’єднана з основною моделлю, починаючи з GPT-5.4, і більше не отримуватиме окремих

GateNews4год тому

Salesforce найматиме 1,000 випускників і стажерів для продуктів на базі ШІ, підвищує прогноз доходів на FY2026

Повідомлення Gate News, 26 квітня — Salesforce найме 1,000 випускників і стажерів для роботи над продуктами на основі ШІ, зокрема Agentforce та Headless360, оскільки компанія розширює свій бізнес із програмного забезпечення на базі ШІ, повідомив CEO Марк Беніофф у X. Компанія також підвищила орієнтир щодо доходів на 2026 фінансовий рік — до діапазону від US$41.45 b

GateNews4год тому

Alibaba Cloud запускає Qwen-Image-2.0-Pro з уніфікованим перетворенням тексту в зображення та редагуванням, з підтримкою багатомовного відтворення тексту

Повідомлення Gate News, 26 квітня — платформа Alibaba Cloud Bailian запустила Qwen-Image-2.0-Pro, повнофункціональну версію серії Qwen-Image-2.0, яка поєднує генерацію з тексту в зображення та редагування зображень в одній моделі. Користувачі можуть змінювати об’єкти, текст і стилі безпосередньо за допомогою команд природною мовою

GateNews6год тому

API DeepSeek V4-Pro отримує 75% знижку до 5 травня, ціна на виході знижується до $0.87 за мільйон токенів

Повідомлення Gate News, 26 квітня — DeepSeek оголосила про 75% знижку на ціни API V4-Pro зі строком дії обмежений часом, дійсну до 5 травня о 15:59 UTC. Після знижки ціна за мільйон токенів така: вхідний кеш-хіт $0.03625

GateNews7год тому
Прокоментувати
0/400
Немає коментарів