Baru-baru ini, chip AI yang menjadi favorit dalam IPO, Cerebras, menjadi perbincangan hangat di Silicon Valley.


Chip-nya dalam skenario model kecil, kecepatan inferensinya bisa mencapai 20 kali lipat H100; sementara untuk model skala besar (seperti 400B parameter), kecepatan respons sistem Cerebras CS-3 untuk satu pengguna sekitar 2,4 kali lipat B200.
Lalu, bagaimana sebenarnya Cerebras bisa melakukan ini? Apakah akan menjadi pembunuh Nvidia?
Kita harus mulai dari esensi evolusi daya komputasi.
Perkembangan daya komputasi AI sedang beralih dari “kemampuan komputasi itu sendiri” ke “komunikasi dan struktur sistem”.
Di jalur evolusi ini, Cerebras Systems menawarkan jawaban yang benar-benar berbeda: bukan mengoptimalkan distribusi, tetapi sebisa mungkin menghilangkan distribusi.
Satu, dua jalur: menghilangkan komunikasi vs mengoptimalkan komunikasi
Saat ini, esensi daya komputasi AI terbagi menjadi dua filosofi arsitektur: satu adalah jalur yang diwakili Nvidia:
Multi-chip (GPU), interkoneksi cepat (NVLink / CPO), scale-out (perluasan horizontal)
Yang lain adalah jalur Cerebras: mencapai batas maksimal dalam satu chip (wafer-scale)
Jaringan dalam chip menggantikan komunikasi antar node, scale-up (perluasan vertikal)
Perbedaan utama adalah: satu fokus pada “bagaimana menghubungkan lebih banyak chip”, yang lain fokus pada “bagaimana tidak perlu menghubungkan sama sekali”.
Dua, mengapa jalur ini baru muncul sekarang
Wafer-scale bukan konsep baru, sudah dicoba sejak tahun 80-an, gagal komersial di tahun 90-an. Alasannya:
Rasio keberhasilan tidak memadai
Tidak ada mekanisme toleransi kesalahan
Perangkat lunak tidak mampu mendukung
Industri pun sepakat: die kecil + rasio keberhasilan tinggi + distribusi.
Terobosan Cerebras terletak pada tiga hal yang bersamaan:
1) Mekanisme toleransi kesalahan secara rekayasa
2) Jaringan dalam chip yang matang
3) Kesesuaian beban kerja AI (tinggi paralelisme, sinkronisasi kuat, komunikasi dominan)
Perubahan esensial adalah: dari “perangkat keras sempurna” ke “sistem yang toleran kesalahan”.
Tiga, perbandingan performa: batas titik tunggal vs perluasan sistem
Dalam aspek komunikasi, kedua jalur ini sangat berbeda:
1) Komunikasi dalam chip
Cerebras: murni dalam chip → latensi terendah, konsumsi energi terendah
CPO: masih ada konversi optoelektronik → efisiensi titik tunggal: Cerebras lebih unggul
2) Perluasan sistem
Cerebras: begitu melintasi chip → kembali ke masalah komunikasi
CPO: bandwidth dapat terus diperluas → kemampuan sistem: CPO lebih unggul
3) Struktur konsumsi daya
Cerebras: konsumsi daya per mesin sangat tinggi, tetapi komunikasi sangat hemat
GPU+CPO: konsumsi daya titik tunggal dapat dikendalikan, efisiensi sistem lebih seimbang
Kesimpulan yang sangat jelas:
Cerebras menang dalam “batas titik tunggal”,
CPO menang dalam “skala sistem”.
Empat, skenario penggunaan: siapa yang harus pakai Cerebras
Kriteria penilaian dapat disederhanakan menjadi tiga pertanyaan:
1) Apakah komunikasi menjadi bottleneck?
2) Apakah tugas dapat dikonsentrasikan?
3) Apakah strukturnya teratur?
Oleh karena itu, sangat cocok untuk pelatihan model besar (model padat), konteks panjang, dan sebagian HPC (PDE, fluida, dll).
Karakteristik umum dari tugas ini adalah coupling yang kuat + sinkronisasi tinggi + bandwidth tinggi.
Sebagian juga cocok untuk inferensi model besar (rendah paralelisme), komputasi graf (ketika struktur kompleks, keunggulan menurun).
Tidak cocok untuk CPU (komputasi umum), inferensi paralel tinggi, chip mobile/edge, sistem waktu nyata.
Karakteristik umum sistem ini: tidak teratur / paralel tinggi / latensi rendah.
Lima, apakah ini akan menjadi arus utama?
Meskipun Cerebras sangat kuat dalam skenario tertentu, jalur ini tidak akan menjadi arus utama karena:
1) Kendala fisik: densitas daya; latensi sinyal → solusi toleransi kesalahan tidak mampu mengatasi masalah ini
2) Ekonomis: rasio keberhasilan die kecil lebih tinggi; chiplet lebih fleksibel
3) Jalur industri: TSMC dan lainnya mengarah ke modularitas, penggunaan kembali multi-klien, bukan monolit besar
4) Perubahan kebutuhan: proporsi inferensi jauh lebih tinggi daripada pelatihan, multitugas dan paralelisme tinggi menjadi arus utama
Enam, makna Cerebras
Daripada ukuran wafer-scale yang dianggap sebagai tren penting, lebih tepat dikatakan bahwa desain toleransi kesalahan adalah filosofi yang akan diadopsi secara luas.
Mungkin di masa depan akan muncul toleransi kesalahan tingkat chiplet, dan tingkat packaging yang mengatasi masalah.
Perubahan utama adalah perangkat keras tunggal tidak lagi harus sempurna, sistem yang bertanggung jawab menanggung risiko.
Kembali ke pertanyaan awal: Apakah Cerebras akan menjadi “pembunuh” Nvidia?
Jawabannya sebenarnya sudah sangat jelas.
Ia memang menembus kelemahan utama dari ekosistem GPU—komunikasi. Tapi, pilihan industri bukanlah harus memilih salah satu, melainkan mengadopsi berbagai terobosan teknologi secara bersamaan: konektivitas yang lebih kuat, konsumsi energi komunikasi yang lebih rendah, efisiensi sistem yang lebih tinggi.
Oleh karena itu, penilaian yang lebih akurat adalah Cerebras bukanlah pembunuh Nvidia, melainkan praktik terbaik yang dapat diadopsi oleh Nvidia dan semua perusahaan chip.
Penafian: Saya memegang saham yang disebutkan dalam artikel ini, pandangan tentu saja bias, bukan saran investasi, risiko investasi sangat besar, masuk harus sangat berhati-hati.
(Gambar: satu chip Cerebras)
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan