Локальний інструмент для запуску AI-моделей Ollama 24/4 публічно оголосив на платформі X, що додасть до сервісу Ollama Cloud модель V4-Flash, випущену напередодні китайським AI-стартапом DeepSeek. Доцінковий хостинг виконуватиметься в США, і буде надано три набори команд «в один клік», щоб розробники могли напряму підключити V4-Flash до популярних робочих процесів розробки AI, зокрема Claude Code, OpenClaw та Hermes.
deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…
— ollama (@ollama) 24 квітня 2026
Попередній перегляд DeepSeek V4: два розміри, 1M контекст
Згідно з оголошенням, опублікованим DeepSeek у офіційній документації API 24/4, DeepSeek-V4 Preview виходить у двох розмірах і синхронно відкривається з відкритим кодом:
Модель Загальні параметри Активні параметри Позиціонування DeepSeek-V4-Pro 1,6 трлн 49,0 млрд Ціль — відповідати закритому флагману DeepSeek-V4-Flash 2,840 млрд 130 млрд Швидко, ефективно, низькою вартістю
Обидві моделі використовують архітектуру Mixture-of-Experts(MoE)та нативно підтримують довгий контекст на 1 млн tokens. DeepSeek в оголошенні заявив: «1M контекст зараз є значенням за замовчуванням для всіх офіційних сервісів DeepSeek».
Архітектурна інновація: DSA розріджена увага+Token-wise стиснення
Ключові архітектурні покращення серії V4 включають:
Token-wise стиснення в поєднанні з DSA(DeepSeek Sparse Attention)—— для суттєвого зниження витрат на обчислення під час інференсу та KV кеш-пам’яті у сценаріях наддовгого контексту
Порівняно з V3.2, у сценарії контексту 1 млн tokens для V4-Pro інференс на 1 token потребує лише 27% FLOPs, а KV cache — лише 10%
Підтримка перемикання у двох режимах: Thinking і Non-Thinking, щоб відповідати вимогам глибокого міркування для різних задач
На рівні API одночасно сумісне з OpenAI ChatCompletions і специфікаціями Anthropic APIs, знижуючи вартість міграції для наявних клієнтів Claude/GPT.
Три команди «в один клік» для Ollama Cloud
Офіційна сторінка моделей Ollama для ідентифікатора моделі deepseek-v4-flash:cloud надає хмарний сервіс інференсу. Розробники можуть використати наведені нижче три набори команд, щоб напряму під’єднати V4-Flash до наявних робочих процесів розробки AI:
Робочий процес Команда Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes
Варто звернути увагу на сигнал «хостинг у США». Для корпоративних користувачів і розробників із Європи та США найбільше занепокоєння при використанні китайських open-source моделей — це повернення даних у Китай; Ollama обирає розмістити інференсний рівень V4-Flash у США, що означає, що prompt і вміст коду не залишають юрисдикцію США, зменшуючи тертя на рівні комплаєнсу та суверенітету даних.
Чому ця подія важлива для індустрії AI
З’єднання трьох компонентів — DeepSeek V4-Flash, Ollama Cloud і Claude Code — які раніше існували як незалежні екосистеми, формує три рівні значення:
Лінія витрат: активних параметрів V4-Flash — 13 млрд — значно менше, ніж у GPT-5.5 (вхідні 5 доларів, вихідні 30 доларів/млн tokens) та Claude Opus 4.7. Для задач середніх і малих агентів, пакетних підсумків, автоматизації тестування тощо можна очікувати відчутне зниження питомої вартості
Посередницький шар географічного ризику: Ollama як посередницький інференсний шар, зареєстрований у США, дозволяє корпоративним користувачам китайських моделей обходити занепокоєння щодо «прямого відправлення даних на сервери DeepSeek у Пекіні». Це практичне рішення для міжнародного поширення open-source моделей
Миттєве перемикання для розробників: користувачі Claude Code та OpenClaw можуть в одній команді у командному рядку перемкнути модель, не змінюючи структуру prompt або налаштування IDE; для сценаріїв «ретестування з поверненням до кількох моделей», «пакетних задач з чутливістю до вартості» це справжній вивільнювач продуктивності в продакшені
Зв’язок із попередніми новинами про DeepSeek
Цього разу реліз V4 і швидка інтеграція з Ollama Cloud відбуваються на тлі того, що DeepSeek веде переговори щодо першого раунду зовнішнього фінансування та оцінки в 20 млрд доларів. V4 є ключовим продуктом-підтвердженням у процесі капіталізації DeepSeek; стратегія open-source + швидке поширення через міжнародних партнерів хостингу — це її «гонка швидкості» перед тим, як закріпити монополію на розробницьку екосистему. Для OpenAI та Anthropic однією новою змінною у боротьбі за домінування agent-робочих процесів є open-source модель, яку можна перемикати однією командою всередині Claude Code.
Ця стаття «DeepSeek V4-Flash з’явився на Ollama Cloud, хостинг у США: Claude Code, OpenClaw — підключення в один клік» вперше з’явилася на «鏈新聞 ABMedia».
Пов'язані статті
Anthropic 派 Claude Mythos проходить 20 годин психіатричної оцінки: оборонна реакція лише 2%, встановлено історичний мінімум серед усіх поколінь
AI-агент уже здатний самостійно відтворювати складні академічні статті: Mollick стверджує, що помилки здебільшого трапляються в людських оригіналах, а не в AI
OpenAI Об’єднує Codex з Основною Моделлю, Починаючи з GPT-5.4, Припиняє Окрему Лінійку Кодування
Salesforce найматиме 1,000 випускників і стажерів для продуктів на базі ШІ, підвищує прогноз доходів на FY2026
Alibaba Cloud запускає Qwen-Image-2.0-Pro з уніфікованим перетворенням тексту в зображення та редагуванням, з підтримкою багатомовного відтворення тексту
API DeepSeek V4-Pro отримує 75% знижку до 5 травня, ціна на виході знижується до $0.87 за мільйон токенів