AI menguasai bahasa. Dunia fisik berikutnya

Lompatan besar berikutnya dalam kecerdasan buatan tidak akan datang dari model bahasa yang lebih baik. Itu akan datang dari mesin yang memahami bagaimana dunia fisik bekerja dan bagaimana mengendalikannya.

Video Rekomendasi


Saya telah menghabiskan bertahun-tahun memikirkan ini, pertama sebagai imunolog di Oxford, mempelajari bagaimana jaringan imun belajar melalui umpan balik daripada instruksi, kemudian sebagai investor yang memimpin investasi benih terbesar Khosla Ventures sejak OpenAI, ke dalam laboratorium pemodelan dunia bernama General Intuition.

Pembatas utama pada AI berwujud bukanlah komputasi atau arsitektur. Itu adalah jenis data tertentu yang hampir tidak ada.

Membiarkan Jin keluar

Awal tahun ini, Google merilis Project Genie dan membuat seluruh pasar game menurun. Pasar menganggapnya sebagai ancaman bagi Unity, TakeTwo Interactive, Roblox, seluruh pipeline penciptaan konten—AI datang untuk pengembang game. Tapi menyederhanakan ini menjadi gangguan pada game seperti menonton demo iPhone pertama dan menyimpulkan Apple akan datang untuk Nokia. Strategi sebenarnya adalah menguasai setiap beban kerja spasial di planet ini.

Yang membedakan langkah Google bukanlah apa yang Genie lakukan dengan baik, tetapi apa yang dikompromikan: lingkungan yang hanya berlangsung beberapa menit, latensi yang terlihat, fisika yang berperilaku aneh. Untuk saat ini, batasan ini dapat diterima ketika tujuan sebenarnya bukan hiburan. Google secara eksplisit memberi tahu bahwa Genie 3 adalah “titik tolak penting dalam jalan menuju AGI,” infrastruktur untuk melatih SIMA, agen umum mereka yang membutuhkan lingkungan yang beragam tanpa henti untuk belajar navigasi, manipulasi objek, dan fisika dunia nyata. Membuat objek muncul di tengah sesi dan mengubah kondisi lingkungan secara langsung bukanlah fitur game. Itu adalah generator kurikulum untuk pembelajaran penguatan.

Apa yang Google bangun adalah pabrik lingkungan, sebuah sistem yang mereduksi bulan-bulan pemrograman manual yang biasanya diperlukan untuk membuat simulasi pelatihan menjadi beberapa detik teks perintah.

Melampaui layar kaca

Untuk memahami mengapa perbedaan itu penting, perbesar pandangan. Dalam semua kekacauan revolusi digital, sangat sedikit yang berubah tentang bagaimana kita berinteraksi secara fisik dengan kenyataan. Lompatan dari komputer desktop awal ke smartphone hingga arsitektur transformer sangat besar dalam hal aliran informasi. Tapi kita masih sebagian besar menyentuh layar kaca.

Pertimbangkan tupai di luar jendela Anda, melompat dari cabang ke cabang, menyesuaikan di tengah terbang karena angin dan kelenturan. Ia memiliki model internal fisika yang sangat canggih: gravitasi, momentum, gesekan, dan dapat merencanakan rangkaian tindakan yang kompleks. Namun ia tidak memiliki bahasa. Ia hanya tahu, dengan cara yang sudah ada jauh sebelum penjelasan pernah bisa.

AI hampir sepenuhnya mengabaikan jenis pengetahuan ini. Model bahasa besar saat ini dapat menulis soneta dan memperbaiki kode. Tapi jika diminta melipat handuk, Anda akan menemukan jurang antara mengetahui tentang dunia dan tahu bagaimana bertindak di dalamnya. Bahasa hanyalah kompresi pengalaman manusia. Teks hanya menangkap sebagian kecil dari apa yang kita ketahui.

Model dunia, jaringan neural yang dilatih untuk memahami dan memprediksi realitas fisik, berjanji mengubah persamaan itu. Yann LeCun memahami ini, dan menyatakan “LLMs pada dasarnya adalah jalan buntu dalam hal kecerdasan super” sebelum meninggalkan Meta untuk meluncurkan startup model dunia sendiri. Fei-Fei Li’s World Labs baru saja merilis Marble, yang menghasilkan lingkungan 3D. Keduanya memahami bahwa kecerdasan spasial adalah frontier berikutnya dalam AI.

Namun keduanya belum menyelesaikan pembatas utama: mereka tidak memiliki data untuk membangun agen.

Melatih agen membutuhkan data yang dikondisikan tindakan. Bukan hanya bagaimana dunia terlihat, tetapi apa yang dilakukan seseorang dan apa yang terjadi selanjutnya: observasi, keputusan, tindakan, konsekuensi. Siklus lengkapnya. Peralihan ke agen membutuhkan jutaan jam pengambilan keputusan manusia yang direkam dari sumbernya, diselaraskan dengan perubahan keadaan yang dihasilkan, dipilih sendiri untuk kasus-kasus ekstrem.

Tangan sebagai hambatan terakhir

Game mungkin jawaban yang tidak terduga. Mereka menyediakan catatan lengkap tentang agen manusia, setiap input dicatat dan diberi label, dalam lingkungan yang menangkap fisika dan pengambilan keputusan di bawah ketidakpastian. Jutaan jam penilaian manusia, sudah didigitalkan.

Nilai terdalam bukanlah fisika. Itu adalah intuisi manusia. Mesin fisika memodelkan bagaimana drone bergerak; ia tidak bisa memodelkan bagaimana operator terampil bereaksi saat terkejut. Dalam operasi, itu adalah rasa bagaimana jaringan merespons pisau bedah. Melatih berdasarkan pengambilan keputusan manusia dan Anda menangkap keahlian yang tidak bisa dijelaskan dengan kata-kata, hanya ditunjukkan, dirasakan.

Jika ini dilakukan dengan benar, konsekuensinya akan seperti apa yang dilakukan perangkat lunak terhadap informasi.

Ketika mesin dapat mempelajari tugas manipulasi dari jam demonstrasi alih-alih berbulan-bulan pemrograman, ekonomi manufaktur berbalik. Produksi batch kecil menjadi layak. Barang kustom berharga sama seperti barang massal saat ini. Pengetahuan seumur hidup seorang master listrik dapat diterapkan di seribu kota sekaligus. Penilaian ahli bedah terbaik dapat diperluas ke rumah sakit pedesaan yang saat ini tidak memiliki akses. Hambatan utama bukanlah pisau bedah. Itu adalah tangan.

Pertanian, logistik, perawatan lansia. Setiap bidang di mana keterampilan fisik langka menjadi kandidat untuk transformasi. Benang merahnya: keahlian yang terkunci dalam tubuh individu menjadi dapat dipindahkan.

Revolusi digital membuat informasi menjadi gratis. Revolusi model dunia akan membuat kemampuan menjadi gratis. Saya tidak bisa memikirkan taruhan yang lebih penting untuk dibuat.

Opini yang disampaikan dalam artikel Fortune.com ini sepenuhnya merupakan pandangan penulisnya dan tidak harus mencerminkan pendapat dan kepercayaan Fortune.

**Bergabunglah dengan kami di Fortune Workplace Innovation Summit **19–20 Mei 2026, di Atlanta. Era inovasi tempat kerja berikutnya telah tiba—dan buku panduan lama sedang ditulis ulang. Dalam acara eksklusif yang penuh energi ini, para pemimpin paling inovatif di dunia akan berkumpul untuk menjelajahi bagaimana AI, manusia, dan strategi bersatu kembali untuk mendefinisikan masa depan kerja. Daftar sekarang.

AGI-3,56%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan