Dalam pemenang Penghargaan Turing, mantan Kepala Ilmuwan AI Meta Yann LeCun mendirikan perusahaan startup Advanced Machine Intelligence (AMI) yang baru-baru ini menyelesaikan pendanaan tahap benih sebesar 1,03 miliar dolar AS, “World Model” kembali menjadi kata kunci populer di bidang kecerdasan buatan. Namun, meskipun komunitas AI sering membahas world models, konsep yang dimaksud oleh para peneliti berbeda jauh.
(Analisis mendalam: Kelemahan LLM? Mengapa AMI LeCun fokus pada jalur World Model)
Ilmuwan riset Meta AI Zhuokai Zhao baru-baru ini memposting panjang di platform sosial yang menyatakan bahwa world model dalam bidang AI saat ini setidaknya dapat dibagi menjadi lima jalur teknologi berbeda. Ia berpendapat bahwa metode-metode ini sebenarnya bukan bersaing langsung, melainkan menyelesaikan masalah dari berbagai aspek.
JEPA: Kompresi pemahaman fisika
Spatial Intelligence: Membangun kembali dunia 3D
Learned Simulation: Melatih AI dalam dunia simulasi
NVIDIA Cosmos: Menyediakan infrastruktur
Active Inference: Mengusulkan teori kecerdasan baru
Ia memperkirakan batas antara mereka akan segera menjadi kabur.
Jalur 1: JEPA milik LeCun, memahami dunia dalam ruang abstrak
Zhao berpendapat bahwa jenis world model pertama adalah Joint Embedding Predictive Architecture (JEPA), yang tokohnya adalah Yann LeCun.
Inti dari JEPA adalah: AI tidak seharusnya mencoba memprediksi setiap piksel, melainkan memprediksi masa depan dalam ruang representasi abstrak.
Dalam dunia nyata, banyak detail memang tidak dapat diprediksi, seperti perubahan cahaya, posisi daun, tekstur permukaan. Jika model harus menghasilkan semua piksel, ia akan dipaksa memproses banyak detail yang tidak bermakna.
Pendekatan JEPA adalah menggunakan encoder untuk mengubah gambar atau video menjadi representasi abstrak, lalu memprediksi bagian yang tersembunyi dalam ruang representasi tersebut. Dengan cara ini, model dapat belajar bahwa “bola akan jatuh dari meja,” tanpa harus menghasilkan setiap frame gambar.
Meta V-JEPA 2 adalah salah satu hasil eksperimen paling representatif saat ini. Model ini menggunakan data video selama 1 juta jam untuk pelatihan self-supervised, kemudian hanya membutuhkan 62 jam data robot untuk menghasilkan model dunia yang mendukung perencanaan nol sampel. Robot menghasilkan urutan aksi kandidat, memasukkannya ke model dunia, dan memilih urutan yang prediksinya paling cocok dengan gambar target. Metode ini cocok untuk objek dan lingkungan yang belum pernah dilihat selama pelatihan.
Efisiensi data yang sangat tinggi ini juga menjadi alasan penting mengapa AMI fokus pada arsitektur JEPA. Jika representasi Anda cukup baik, Anda tidak perlu melakukan pencarian brute-force dari awal untuk setiap tugas. AMI Labs adalah upaya LeCun untuk mendorong teknologi ini dari bidang riset ke aplikasi nyata. Mereka awalnya menargetkan bidang kesehatan dan robotik. Tapi ini adalah investasi jangka panjang, dan CEO mereka pernah menyatakan bahwa produk komersial mungkin baru akan muncul beberapa tahun lagi.
Jalur 2: “Kecerdasan ruang” dari Fei-Fei Li
Jalur terkenal lainnya berasal dari World Labs yang didirikan Fei-Fei Li.
(Fei-Fei Li, “Goddess AI”, startup unicorn World Labs didukung oleh NVIDIA dan AMD)
Berbeda dari JEPA yang “memperkirakan masa depan,” inti masalah Fei-Fei Li adalah: “Seperti apa dunia dalam ruang tiga dimensi?” Konsep yang dia usulkan disebut Spatial Intelligence (Kecerdasan Ruang). Argumennya adalah bahwa pemahaman sejati membutuhkan struktur ruang yang jelas: bentuk geometris, kedalaman, keberlanjutan, dan kemampuan mengamati ulang dari sudut pandang baru—bukan sekadar prediksi waktu. Ini berbeda dari filosofi JEPA: Anda tidak belajar dinamika abstrak, melainkan representasi 3D yang terstruktur dari lingkungan yang dapat langsung dioperasikan.
Produk dari World Labs, Marble, dapat menghasilkan dunia 3D yang berkelanjutan dari gambar, teks, atau video. Berbeda dari model generasi video tradisional, Marble menghasilkan scene 3D yang nyata. Pengguna dapat memindahkan sudut pandang secara bebas, memodifikasi objek, dan mengekspor model 3D. Ini lebih mendekati mesin penciptaan 3D daripada sekadar model generatif.
Jalur 3: DeepMind dan “Simulasi dunia belajar”
Jenis world model ketiga adalah simulasi yang dipelajari (Learned Simulation).
Contoh penelitian meliputi:
DeepMind Genie 3
Seri Dreamer
Runway GWM-1
Model-model ini berusaha membangun dunia simulasi yang dapat berinteraksi, memungkinkan AI belajar di dalamnya.
Jalur 4: Infrastruktur AI fisik dari NVIDIA
Jalur keempat bukan langsung membangun model, melainkan menciptakan ekosistem platform lengkap. Perusahaan utamanya adalah NVIDIA, yang meluncurkan platform Cosmos yang menyediakan infrastruktur lengkap:
Pengolahan data video
Tokenizer visual
Pelatihan model
Layanan deployment
Cosmos telah dilatih dengan 20 juta jam video dunia nyata, dengan total token mencapai 9 triliun.
(NVIDIA Alpamayo dan ekosistemnya: Memberikan kemampuan penalaran dan penjelasan keputusan untuk AI mengemudi)
Strategi NVIDIA sangat jelas: mereka tidak harus membuat world model sendiri, melainkan menyediakan alat bagi semua orang untuk membangun world model.
Jalur 5: Active Inference (Aliran neuro-sains)
Jalur terakhir berasal dari teori neuro-sains. Tokohnya adalah Karl Friston, yang mengusulkan Free Energy Principle (Prinsip Energi Bebas) yang terkenal. Berbeda dari reinforcement learning tradisional, Active Inference menganggap AI seperti makhluk hidup yang terus berusaha memahami dunia. Ia akan mengambil tindakan untuk membuat prediksi terhadap lingkungan menjadi lebih akurat, dan mengurangi situasi di mana “sesuatu berbeda dari yang diperkirakan.”
Perusahaan VERSES AI dengan sistem AXIOM menggunakan model berbasis objek, di mana setiap objek adalah entitas independen, dan sistem memperbarui keyakinan menggunakan inferensi Bayesian, tanpa bergantung pada pelatihan gradien neural network yang dalam. Arsitektur ini memiliki keunggulan dalam interpretabilitas, komposabilitas, dan efisiensi data yang tinggi. AXIOM merilis produk komersialnya (Genius) pada April 2025, dan pengujian standar menunjukkan kompetitif dengan baseline RL, meskipun menggunakan data jauh lebih sedikit.
Masa Depan Perang Dunia AI: Memahami Dunia
Zhao akhirnya menegaskan bahwa kelima jalur world model ini sebenarnya tidak saling bertentangan, melainkan menyelesaikan masalah yang berbeda:
JEPA: Kompresi pemahaman fisika
Spatial Intelligence: Membangun kembali dunia 3D
Learned Simulation: Melatih AI dalam dunia simulasi
NVIDIA Cosmos: Menyediakan infrastruktur
Active Inference: Mengusulkan teori kecerdasan baru
Seiring AI semakin berkembang ke arah robot, kendaraan otomatis, dan AI fisik, teknologi-teknologi ini kemungkinan besar akan cepat menyatu di masa depan.
Artikel ini mengungkap lima aliran utama World Model: apa AI yang didukung oleh Yann LeCun dan Fei-Fei Li? Pertama kali muncul di ABMedia.