Peneliti Meta Ungkap Lima Aliran Utama World Model: Apa AI yang Dipertaruhkan oleh Yann LeCun dan Fei-Fei Li?

ChainNewsAbmedia

Dalam pemenang Penghargaan Turing, mantan Kepala Ilmuwan AI Meta Yann LeCun mendirikan perusahaan startup Advanced Machine Intelligence (AMI) yang baru-baru ini menyelesaikan pendanaan tahap benih sebesar 1,03 miliar dolar AS, “World Model” kembali menjadi kata kunci populer di bidang kecerdasan buatan. Namun, meskipun komunitas AI sering membahas world models, konsep yang dimaksud oleh para peneliti berbeda jauh.

(Analisis mendalam: Kelemahan LLM? Mengapa AMI LeCun fokus pada jalur World Model)

Ilmuwan riset Meta AI Zhuokai Zhao baru-baru ini memposting panjang di platform sosial yang menyatakan bahwa world model dalam bidang AI saat ini setidaknya dapat dibagi menjadi lima jalur teknologi berbeda. Ia berpendapat bahwa metode-metode ini sebenarnya bukan bersaing langsung, melainkan menyelesaikan masalah dari berbagai aspek.

JEPA: Kompresi pemahaman fisika

Spatial Intelligence: Membangun kembali dunia 3D

Learned Simulation: Melatih AI dalam dunia simulasi

NVIDIA Cosmos: Menyediakan infrastruktur

Active Inference: Mengusulkan teori kecerdasan baru

Ia memperkirakan batas antara mereka akan segera menjadi kabur.

Jalur 1: JEPA milik LeCun, memahami dunia dalam ruang abstrak

Zhao berpendapat bahwa jenis world model pertama adalah Joint Embedding Predictive Architecture (JEPA), yang tokohnya adalah Yann LeCun.

Inti dari JEPA adalah: AI tidak seharusnya mencoba memprediksi setiap piksel, melainkan memprediksi masa depan dalam ruang representasi abstrak.

Dalam dunia nyata, banyak detail memang tidak dapat diprediksi, seperti perubahan cahaya, posisi daun, tekstur permukaan. Jika model harus menghasilkan semua piksel, ia akan dipaksa memproses banyak detail yang tidak bermakna.

Pendekatan JEPA adalah menggunakan encoder untuk mengubah gambar atau video menjadi representasi abstrak, lalu memprediksi bagian yang tersembunyi dalam ruang representasi tersebut. Dengan cara ini, model dapat belajar bahwa “bola akan jatuh dari meja,” tanpa harus menghasilkan setiap frame gambar.

Meta V-JEPA 2 adalah salah satu hasil eksperimen paling representatif saat ini. Model ini menggunakan data video selama 1 juta jam untuk pelatihan self-supervised, kemudian hanya membutuhkan 62 jam data robot untuk menghasilkan model dunia yang mendukung perencanaan nol sampel. Robot menghasilkan urutan aksi kandidat, memasukkannya ke model dunia, dan memilih urutan yang prediksinya paling cocok dengan gambar target. Metode ini cocok untuk objek dan lingkungan yang belum pernah dilihat selama pelatihan.

Efisiensi data yang sangat tinggi ini juga menjadi alasan penting mengapa AMI fokus pada arsitektur JEPA. Jika representasi Anda cukup baik, Anda tidak perlu melakukan pencarian brute-force dari awal untuk setiap tugas. AMI Labs adalah upaya LeCun untuk mendorong teknologi ini dari bidang riset ke aplikasi nyata. Mereka awalnya menargetkan bidang kesehatan dan robotik. Tapi ini adalah investasi jangka panjang, dan CEO mereka pernah menyatakan bahwa produk komersial mungkin baru akan muncul beberapa tahun lagi.

Jalur 2: “Kecerdasan ruang” dari Fei-Fei Li

Jalur terkenal lainnya berasal dari World Labs yang didirikan Fei-Fei Li.

(Fei-Fei Li, “Goddess AI”, startup unicorn World Labs didukung oleh NVIDIA dan AMD)

Berbeda dari JEPA yang “memperkirakan masa depan,” inti masalah Fei-Fei Li adalah: “Seperti apa dunia dalam ruang tiga dimensi?” Konsep yang dia usulkan disebut Spatial Intelligence (Kecerdasan Ruang). Argumennya adalah bahwa pemahaman sejati membutuhkan struktur ruang yang jelas: bentuk geometris, kedalaman, keberlanjutan, dan kemampuan mengamati ulang dari sudut pandang baru—bukan sekadar prediksi waktu. Ini berbeda dari filosofi JEPA: Anda tidak belajar dinamika abstrak, melainkan representasi 3D yang terstruktur dari lingkungan yang dapat langsung dioperasikan.

Produk dari World Labs, Marble, dapat menghasilkan dunia 3D yang berkelanjutan dari gambar, teks, atau video. Berbeda dari model generasi video tradisional, Marble menghasilkan scene 3D yang nyata. Pengguna dapat memindahkan sudut pandang secara bebas, memodifikasi objek, dan mengekspor model 3D. Ini lebih mendekati mesin penciptaan 3D daripada sekadar model generatif.

Jalur 3: DeepMind dan “Simulasi dunia belajar”

Jenis world model ketiga adalah simulasi yang dipelajari (Learned Simulation).

Contoh penelitian meliputi:

DeepMind Genie 3

Seri Dreamer

Runway GWM-1

Model-model ini berusaha membangun dunia simulasi yang dapat berinteraksi, memungkinkan AI belajar di dalamnya.

Jalur 4: Infrastruktur AI fisik dari NVIDIA

Jalur keempat bukan langsung membangun model, melainkan menciptakan ekosistem platform lengkap. Perusahaan utamanya adalah NVIDIA, yang meluncurkan platform Cosmos yang menyediakan infrastruktur lengkap:

Pengolahan data video

Tokenizer visual

Pelatihan model

Layanan deployment

Cosmos telah dilatih dengan 20 juta jam video dunia nyata, dengan total token mencapai 9 triliun.

(NVIDIA Alpamayo dan ekosistemnya: Memberikan kemampuan penalaran dan penjelasan keputusan untuk AI mengemudi)

Strategi NVIDIA sangat jelas: mereka tidak harus membuat world model sendiri, melainkan menyediakan alat bagi semua orang untuk membangun world model.

Jalur 5: Active Inference (Aliran neuro-sains)

Jalur terakhir berasal dari teori neuro-sains. Tokohnya adalah Karl Friston, yang mengusulkan Free Energy Principle (Prinsip Energi Bebas) yang terkenal. Berbeda dari reinforcement learning tradisional, Active Inference menganggap AI seperti makhluk hidup yang terus berusaha memahami dunia. Ia akan mengambil tindakan untuk membuat prediksi terhadap lingkungan menjadi lebih akurat, dan mengurangi situasi di mana “sesuatu berbeda dari yang diperkirakan.”

Perusahaan VERSES AI dengan sistem AXIOM menggunakan model berbasis objek, di mana setiap objek adalah entitas independen, dan sistem memperbarui keyakinan menggunakan inferensi Bayesian, tanpa bergantung pada pelatihan gradien neural network yang dalam. Arsitektur ini memiliki keunggulan dalam interpretabilitas, komposabilitas, dan efisiensi data yang tinggi. AXIOM merilis produk komersialnya (Genius) pada April 2025, dan pengujian standar menunjukkan kompetitif dengan baseline RL, meskipun menggunakan data jauh lebih sedikit.

Masa Depan Perang Dunia AI: Memahami Dunia

Zhao akhirnya menegaskan bahwa kelima jalur world model ini sebenarnya tidak saling bertentangan, melainkan menyelesaikan masalah yang berbeda:

JEPA: Kompresi pemahaman fisika

Spatial Intelligence: Membangun kembali dunia 3D

Learned Simulation: Melatih AI dalam dunia simulasi

NVIDIA Cosmos: Menyediakan infrastruktur

Active Inference: Mengusulkan teori kecerdasan baru

Seiring AI semakin berkembang ke arah robot, kendaraan otomatis, dan AI fisik, teknologi-teknologi ini kemungkinan besar akan cepat menyatu di masa depan.

Artikel ini mengungkap lima aliran utama World Model: apa AI yang didukung oleh Yann LeCun dan Fei-Fei Li? Pertama kali muncul di ABMedia.

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar