ローカル AI モデル運行ツールの Ollama は、4/24 に X プラットフォームで公開発表し、中国の AI スタートアップ DeepSeek が前日にリリースした V4-Flash モデルを Ollama Cloud サービスに取り込むとしました。推論ホストは米国にあり、開発者が V4-Flash を Claude Code、OpenClaw、Hermes などの主要な AI プログラム開発ワークフローに直接接続できるよう、ワンタッチの指示を 3 セット提供します。
deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…
— ollama (@ollama) April 24, 2026
DeepSeek V4 Preview:2 種類のサイズ、1M コンテキスト
DeepSeek 公式 API ドキュメントで 4/24 に発表された告知によれば、DeepSeek-V4 Preview は 2 つのサイズに分かれて同期してオープンソースで公開されます:
モデル 総パラメータ アクティブ・パラメータ 想定 DeepSeek-V4-Pro 1.6 兆 490 億 対象は非公開のフラッグシップ DeepSeek-V4-Flash 2,840 億 130 億 高速、高効率、低コスト
2 つはいずれも Mixture-of-Experts(MoE)アーキテクチャを採用し、ネイティブで 100 万 tokens の長いコンテキストに対応しています。DeepSeek は告知の中で次のように宣言しています:「1M コンテキストは現在、すべての DeepSeek 公式サービスのデフォルトです。」
アーキテクチャの革新:DSA 稀薄注意+Token-wise 圧縮
V4 シリーズの中核となるアーキテクチャ改善には以下が含まれます:
Token-wise 圧縮に加えて DSA(DeepSeek Sparse Attention)— 超長コンテキスト下での推論計算と KV キャッシュのメモリ消費を大幅に削減し、コストを引き下げる
V3.2 と比べて、V4-Pro は 100 万 tokens のコンテキスト状況下で、1 token あたりの推論は必要 FLOPs が 27% のみ、KV cache は必要量が 10% のみ
Thinking と Non-Thinking の 2 つのモードを切り替えでき、異なるタスクの深い推論ニーズに対応
API レイヤーでは OpenAI ChatCompletions と Anthropic APIs の仕様の両方に同時対応し、既存の Claude/GPT クライアントの移行コストを下げる。
Ollama Cloud の 3 セットのワンタッチ起動コマンド
Ollama 公式のモデルページでは、モデル識別子 deepseek-v4-flash:cloud によりクラウド推論サービスが提供されています。開発者は以下の 3 セットの指示で、V4-Flash を既存の AI プログラム開発ワークフローに直接つなげることができます:
ワークフロー 指示 Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes
注目すべきは「米国ホスト」というシグナルです。企業や欧米の開発者にとって、中国のオープンソース・モデルを使う際の最大の懸念はデータが中国へ返送されることです。Ollama は V4-Flash の推論層を米国に置くことを選択しており、これは prompt とコードの内容が米国の司法管轄を離れないことを意味し、コンプライアンスやデータ主権の観点での摩擦を減らします。
なぜこの件が AI 産業にとって重要なのか
DeepSeek V4-Flash、Ollama Cloud、Claude Code の 3 つを、もともと別々に存在していた生態系としてつなぎ合わせることで、3 つの意味が生まれます:
コスト面:V4-Flash の 130 億アクティブ・パラメータは、GPT-5.5(入力 5 ドル、出力 30 ドル/100 万 tokens)や Claude Opus 4.7 のようなフラッグシップに比べてはるかに小さく、中小規模のエージェント・タスク、バッチ要約、テスト自動化などの用途では、単位コストが大幅に下がることが期待されます
地政学リスクの中介レイヤー:Ollama は米国に登録された中間推論層として、中国のネイティブ・モデルの企業ユーザーが「データが直接 DeepSeek の北京サーバーに送られる」懸念を回避できるようにし、オープンソース・モデルの国際的拡散における実務的な解決策になります
開発者が即時に切り替え:Claude Code と OpenClaw のユーザーは、コマンドラインで 1 行切り替えるだけでモデルを変更でき、prompt 構造や IDE 設定を変える必要がありません。「多モデルの回帰テスト」「コストに敏感なバッチ・タスク」のような使用シーンで、本当の生産性の解放につながります
先行する DeepSeek のニュースとの連動
今回の V4 のリリースと Ollama Cloud への迅速な統合は、DeepSeek が第 1 ラウンドの外部融資を協議しており、バリュエーションが 200 億米ドルであるという背景の中で起きています。V4 は DeepSeek 社の資本化プロセスにおける重要なプロダクト証明であり、オープンソース戦略+国際ホストの協業パートナーによる迅速な拡散は、開発者エコシステムの独占を確立する前のスピード勝負です。OpenAI と Anthropic にとって、Claude Code 内で 1 行で切り替えられるオープンソースの代替モデルは、agent ワークフロー主導権の争奪における新たな変数です。
この記事 DeepSeek V4-Flash が Ollama Cloud に登場・米国ホスト:Claude Code、OpenClaw をワンタッチで接続 は 最初に 鏈新聞 ABMedia に掲載されました。
関連記事
Judge Dismisses Fraud Claims in Elon Musk's OpenAI Lawsuit; Case Advances to Trial with Two Remaining Allegations
GoogleはAnthropicに400億ドルを追加投資:まず100億ドルを前払いし、業績に応じて300億ドルを放出。5GWのTPU計算リソースも配分