Platform AI Workers Cloudflare secara resmi mengintegrasikan Kimi K2.5 dari Moonshot AI, mendukung konteks 256K, panggilan alat berulang, dan input visual. Agen audit keamanan internal Cloudflare menangani lebih dari 7 miliar token setiap hari, dan setelah beralih, biaya turun sebesar 77% dibandingkan model komersial menengah.
(Latar belakang: Cursor melatih model dengan Kimi K2.5 tetapi tidak mengumumkannya, pengembang merekam paket data, menghapus push, dan semua perubahan mendadak dari pihak resmi)
(Keterangan tambahan: Cloudflare yang membantu memblokir crawler meluncurkan API “Satu Klik Crawler Seluruh Situs”, mendukung RAG, pembaruan inkremental, dan pelatihan model secara sempurna)
Daftar isi artikel
Toggle
Platform AI Workers Cloudflare diam-diam melakukan langkah besar, menurut blog resmi Cloudflare, dengan menjadikan Kimi K2.5 dari Moonshot AI sebagai model default untuk starter SDK Agen. Insinyur Cloudflare sendiri juga menggunakannya untuk menjalankan tugas audit keamanan nyata, dan menghemat banyak biaya.
Kimi K2.5 adalah salah satu dari sedikit model dalam komunitas open-source yang mencapai “spesifikasi terdepan”, mendukung jendela konteks 256K, panggilan alat berulang (multi-turn tool calling), input visual, dan output terstruktur. Untuk tugas agen yang membutuhkan penalaran teks panjang, angka-angka ini sudah sangat berguna.
Insinyur Cloudflare langsung menggunakan Kimi K2.5 sebagai agen utama dalam lingkungan OpenCode untuk pemrograman, dan juga mengembangkan agen review kode publik bernama “Bonk” yang terintegrasi dalam pipeline otomatis.
Lebih mencolok lagi adalah skenario audit keamanan internal. Agen ini menangani lebih dari 7 miliar token setiap hari. Jika menggunakan model komersial standar untuk volume kerja yang sama, biayanya sekitar 2,4 juta dolar AS per tahun. Setelah beralih ke Kimi K2.5, biaya langsung dipotong 77%, menghemat hampir 1,85 juta dolar AS.
Angka ini bukan iklan, melainkan pengakuan langsung dari insinyur Cloudflare yang dipublikasikan di blog resmi.
Hanya mengganti model tidak cukup, Cloudflare juga meluncurkan tiga peningkatan di tingkat platform, secara khusus menargetkan masalah biaya dan efisiensi dalam skenario percakapan panjang agen:
Cloudflare tidak menggunakan kerangka inferensi jadi, melainkan mengembangkan inti inferensi kustom dengan mesin Infire sendiri, mengadopsi paralelisme data, paralelisme tensor, dan paralelisme ahli, dengan arsitektur pemrosesan prefix yang terpisah.
Saat ini, Kimi K2.5 adalah kasus pertama inferensi model besar yang dioperasikan di Workers AI, sekaligus menunjukkan ambisi Cloudflare dalam infrastruktur AI, yang dapat disesuaikan dengan platform web dan tetap terjangkau.