Google meluncurkan model open-source Gemma 4: “Inferensi di sisi perangkat” meningkatkan efisiensi alur kerja agen AI

ChainNewsAbmedia

Google secara resmi merilis Gemma 4 pada 2 April 2026, sebagai salah satu model open source terkuat hingga saat ini. Gemma 4 mencapai terobosan besar dalam native function calling, alur kerja agen, serta persepsi multimodal, dan mengadopsi lisensi Apache 2.0 yang ramah bisnis, menghadirkan tingkat kebebasan dan fleksibilitas yang belum pernah ada bagi pengembang dan perusahaan di seluruh dunia.

Gemma 4 itu apa? Lihat keunggulan utamanya sekaligus

Gemma 4 adalah rangkaian model bahasa besar open source yang dikeluarkan oleh Google DeepMind, dan berbagi teknologi dengan seri model Gemini. Sorotan utamanya meliputi:

Kemampuan penalaran tingkat lanjut: Mendukung perencanaan multi-langkah dan penalaran logika mendalam, secara signifikan melampaui model open source sekelasnya pada benchmark matematika dan kepatuhan instruksi.

Native agent workflow: Tersemat dukungan untuk function calling, output JSON terstruktur, dan dukungan system instruction, sehingga dapat langsung menggerakkan agen AI otonom dan menjalankan tugas multi-langkah.

Penerapan di perangkat lokal: Versi E2B dan E4B dioptimalkan khusus untuk berbagai perangkat seperti ponsel, dan dapat beroperasi sepenuhnya secara offline.

Dukungan multimodal yang lengkap: Semua versi mendukung input gambar dan video secara native; E2B dan E4B secara tambahan mendukung input audio secara native.

Jendela konteks ultra-panjang: Model edge mendukung 128K token, sedangkan model yang lebih besar hingga 256K token; memungkinkan seluruh repositori kode atau dokumen panjang dikirim dalam satu kali prompt.

Pembuatan kode berkualitas tinggi: Mendukung penulisan kode offline, sehingga stasiun kerja pribadi dapat dijadikan asisten perancangan kode AI yang mengutamakan lokal.

Pelatihan native lebih dari 140 bahasa: Mendukung lebih dari 140 bahasa di seluruh dunia, membantu pengembang membangun aplikasi multibahasa untuk melayani pengguna internasional.

Empat jenis model, memaksimalkan dukungan untuk semua skenario aplikasi

Gemma 4 hadir dalam empat versi, dioptimalkan untuk lingkungan perangkat keras dan skenario aplikasi yang berbeda:

Effective 2B (E2B): Dirancang khusus untuk perangkat seluler dan IoT, mendukung jendela konteks 128K, native audio input, serta dapat beroperasi sepenuhnya offline pada perangkat edge seperti ponsel Android, Raspberry Pi.

Effective 4B (E4B): Dioptimalkan juga untuk sisi edge, memiliki kemampuan multimodal, serta mencapai keseimbangan yang sangat baik antara performa inferensi dan penggunaan memori.

26B Mixture of Experts (MoE): Saat inferensi hanya mengaktifkan 3,8 miliar parameter, sehingga menghasilkan inferensi berkecepatan tinggi dengan latensi yang sangat rendah, cocok untuk deployment stasiun kerja lokal yang mengutamakan throughput.

31B Dense: Versi flagship, menempati peringkat ketiga di papan peringkat teks Arena AI, menyediakan output berkualitas tertinggi, dan dapat berjalan sepenuhnya pada satu GPU NVIDIA H100 80GB.

Versi terkuantisasi dari 26B MoE dan 31B Dense juga dapat dieksekusi secara native pada kartu grafis kelas konsumen, membuat kemampuan inferensi AI yang kuat benar-benar merata hingga ke desktop pengembang individu.

Terobosan besar pada inferensi lokal: tinggalkan ketergantungan API

Salah satu fitur Gemma 4 yang paling menarik perhatian adalah penekanan pada kemampuan “inferensi lokal (On-device)”. Model E2B dan E4B dirancang untuk memaksimalkan efisiensi komputasi dan efisiensi memori, sehingga dapat dijalankan hampir dengan latensi nol pada perangkat edge seperti ponsel, Raspberry Pi, dan NVIDIA Jetson Orin Nano.

Ini berdampak besar bagi pengembang: sebelumnya, memanggil API AI cloud perlu menanggung biaya untuk setiap permintaan, serta ada risiko keterlambatan jaringan dan privasi data. Dengan kemampuan inferensi on-device Gemma 4, pengembang dapat menjalankan model pada perangkat keras mereka sendiri, secara signifikan menurunkan biaya pemanggilan API, sekaligus memperoleh kedaulatan data penuh dan ketersediaan offline.

Google juga bekerja sama erat dengan tim Pixel serta mitra perangkat keras seluler seperti Qualcomm dan MediaTek, untuk memastikan E2B/E4B mencapai performa terbaik di perangkat Android arus utama, dan membuka AICore Developer Preview kepada pengembang Android agar dapat melakukan pengembangan untuk integrasi Gemini Nano 4.

Perkuat alur kerja agen AI, native function calling meningkatkan efisiensi

Gemma 4 juga menghadirkan native support pada alur kerja agen (Agentic Workflows), yang merupakan salah satu loncatan fungsi paling menonjol dibanding generasi sebelumnya. Model ini mendukung:

Native function calling: Model dapat langsung memanggil alat dan API eksternal untuk menjalankan operasi aktual, misalnya melakukan query ke database, memanggil layanan pihak ketiga, dan sebagainya.

Output JSON terstruktur: Memastikan output model sesuai format tertentu, sehingga mudah diintegrasikan tanpa hambatan dengan sistem backend.

Native system instructions: Pengembang dapat mengatur perilaku model di tingkat sistem, sehingga pengaturan peran agen AI menjadi lebih stabil dan konsisten.

Kemampuan ini membuat Gemma 4 menjadi agen AI otonom serba guna: tidak hanya dapat menjawab pertanyaan, tetapi juga secara proaktif berinteraksi dengan alat, serta otomatis menjalankan alur kerja multi-langkah.

Peningkatan multimodal secara menyeluruh: visual, audio, teks panjang semuanya tersedia

Seluruh model di lini Gemma 4 memiliki kemampuan multimodal native, sehingga secara besar memperluas jenis tugas yang dapat ditangani.

Gambar dan video

Untuk pemahaman visual, semua model mendukung pemrosesan native untuk gambar dan video, dengan dukungan resolusi yang dapat berubah. Model unggul pada tugas visual seperti OCR (pengenalan karakter optik) dan pemahaman diagram.

Input audio

Dalam aspek audio, model edge E2B dan E4B secara tambahan mendukung input audio native, sehingga dapat langsung melakukan pengenalan dan pemahaman ucapan tanpa langkah tambahan mengubah audio menjadi teks.

Konteks ultra-panjang

Untuk dokumen, model edge mendukung jendela konteks 128K token; model yang lebih besar menyediakan hingga 256K token, sehingga pengembang dapat mengirim seluruh repositori kode atau dokumen panjang dalam satu kali prompt.

Pembuatan kode offline

Mendukung penulisan kode offline berkualitas tinggi, sehingga stasiun kerja pribadi dapat berubah menjadi asisten perancangan kode AI yang mengutamakan lokal.

Dukungan 140+ bahasa

Pelatihan native lebih dari 140 bahasa membantu pengembang membangun aplikasi untuk melayani pengguna global.

Lisensi Apache 2.0: tonggak penting di ekosistem open source

Gemma 4 dirilis dengan lisensi Apache 2.0, yang merupakan salah satu lisensi paling ramah bisnis di komunitas open source. Pengembang dan perusahaan dapat menggunakan, memodifikasi, dan mendistribusikan model secara bebas. Baik untuk deployment di infrastruktur privat, lingkungan hybrid cloud, maupun sebagai bagian dari produk komersial yang tertanam, semuanya tidak dikenai batasan tambahan.

Dukungan ekosistem yang kaya

Gemma 4 turut mendapatkan dukungan menyeluruh dari berbagai alat utama industri, termasuk Hugging Face (Transformers, TRL, Transformers.js), Ollama, vLLM, llama.cpp, MLX, LM Studio, NVIDIA NIM dan NeMo, Keras, Vertex AI, dan lain-lain.

Pengembang dapat langsung mengunduh bobot model melalui Hugging Face, Kaggle, atau Ollama, serta menguji versi 31B dan 26B MoE secara online di Google AI Studio, atau mencoba versi E2B dan E4B melalui Google AI Edge Gallery.

Untuk perusahaan yang membutuhkan deployment skala besar, Google Cloud menyediakan solusi cloud lengkap, mencakup Vertex AI, Cloud Run, GKE, Sovereign Cloud, serta layanan percepatan inferensi berbasis TPU, sehingga menghilangkan batasan atas daya komputasi lokal.

Menurunkan biaya tanpa mengorbankan kemampuan: Gemma 4 menjadi pilihan baru bagi pengembang

Peluncuran Gemma 4 merupakan tonggak penting dalam model AI open source. Sebagai alat kelas enterprise yang memiliki kemampuan deployment produksi, ia dapat dijalankan secara offline di ponsel, memanggil alat eksternal untuk menyelesaikan tugas secara otonom, menangani dokumen panjang serta input multimodal, sambil tetap memungkinkan semua orang menggunakannya secara bebas.

Bagi pengembang dan perusahaan yang ingin menurunkan biaya pemanggilan API sekaligus mempertahankan kemampuan AI, Gemma 4 menawarkan jalur yang sangat menarik.

Artikel ini tentang Google yang meluncurkan model open source Gemma 4: “inferensi lokal” memperkuat efisiensi alur kerja agen AI, pertama kali muncul di 鏈新聞 ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar