Sumber artikel: GenAI New World
Penulis: Miao Zheng
Sumber gambar: Dihasilkan oleh Unbounded AI
Mari kita kesampingkan Polar Smash Bros. dalam manajemen OpenAI dan bicarakan rumor terbaru dari perusahaan ini - Q*. OpenAI mengirim surat internal kepada karyawan pada 22 November, mengakui Q dan menggambarkan proyek tersebut sebagai “sistem otonom di luar manusia.” Ini benar-benar menakutkan.
Meskipun OpenAI belum secara resmi merilis berita apa pun tentang Q*, kami masih memiliki kemampuan untuk memahaminya dengan cara yang dangkal.
Pertama-tama, langkah pertama adalah memahami pengucapan Q*, nama resminya adalah Q-Star, yang diterjemahkan menjadi Q-Star. Ya, Anda membacanya dengan benar, meskipun dalam pembelajaran mendalam, blok diselesaikan dengan perkalian, tetapi dalam Q*, “*” tidak berarti perkalian, tetapi “tanda bintang”. Huruf “**Q” menunjukkan hadiah yang diharapkan untuk suatu tindakan dalam pembelajaran penguatan. **
Di bidang kecerdasan buatan, apa pun yang ada hubungannya dengan huruf besar Q pada dasarnya adalah pembelajaran Q. Q learning dapat dikatakan sebagai semacam pembelajaran penguatan berdasarkan kriteria evaluasi saat ini, yang mengacu pada cara dalam proses pelatihan, dalam cara mencatat nilai hadiah historis dari pelatihan, memberi tahu agen bagaimana memilih langkah selanjutnya agar sama dengan nilai hadiah historis tertinggi. Namun, harap dicatat bahwa nilai hadiah maksimum historis tidak mewakili nilai hadiah maksimum model, mungkin atau mungkin tidak, dan bahkan mungkin gagal untuk memukul. Dengan kata lain, pembelajaran Q dan agen seperti hubungan antara analis dan pelatih tim. Pelatih bertanggung jawab untuk melatih tim, dan analis digunakan untuk membantu pelatih.
Dalam proses pembelajaran penguatan, keputusan output agen diumpankan kembali ke lingkungan untuk menerima nilai hadiah. Q learning, di sisi lain, hanya mencatat nilai reward, sehingga tidak perlu memodelkan lingkungan, yang setara dengan “hasil bagus, semua bagus”.
Namun, dilihat dari cara ini, tampaknya Q learning tidak sebaik model deep learning yang biasa digunakan dalam kecerdasan buatan, terutama model besar. Dengan miliaran dan puluhan miliar parameter seperti yang sekarang, pembelajaran Q tidak hanya tidak membantu model, tetapi juga meningkatkan kompleksitas dan dengan demikian mengurangi ketahanan.
Jangan khawatir, ini karena ide di balik pembelajaran Q di atas sendiri hanyalah konsep dasar yang lahir pada tahun 1989. **
Pada tahun 2013, DeepMind meluncurkan algoritma yang disebut Deep Q Learning dengan meningkatkan pembelajaran Q, fitur yang paling khas di antaranya adalah penggunaan pemutaran pengalaman, pengambilan sampel dari beberapa hasil di masa lalu, dan kemudian menggunakan pembelajaran Q, sehingga dapat meningkatkan stabilitas model dan mengurangi perbedaan arah pelatihan model karena hasil tertentu.
Namun, sejujurnya, ada alasan mengapa konsep ini belum menjadi populer, dan dari sudut pandang praktis, peran terbesar pembelajaran Q mendalam dalam komunitas akademik adalah pengembangan DQN.
DQN mengacu pada Deep Q Network, yang lahir dari pembelajaran deep Q. Ide DQN persis sama dengan pembelajaran Q, tetapi proses menemukan nilai imbalan maksimum dalam pembelajaran Q diwujudkan oleh jaringan saraf. Tiba-tiba, itu menjadi modis.
DQN hanya menghasilkan satu node pada satu waktu. Pada saat yang sama, DQN menghasilkan antrian prioritas, dan kemudian menyimpan node yang tersisa dan leluhur tindakan dalam antrian prioritas. Jelas, satu simpul jelas tidak cukup, dan jika seluruh proses hanya satu simpul, solusi akhirnya pasti sangat salah. Ketika node dan leluhur tindakan dihapus dari antrian, node baru akan dihasilkan berdasarkan asosiasi bahwa tindakan berlaku untuk node yang telah dihasilkan, dan seterusnya.
Orang yang tahu sedikit tentang sejarah kecerdasan buatan akan merasa bahwa semakin mereka melihatnya, semakin akrab mereka, bukankah ini versi high-end Freud yang meminta panjang sisi?
Dalam komputer modern, prinsip inti yang digunakan oleh prosesor adalah algoritma Freud, yang digunakan untuk menemukan jalur terpendek antara dua titik dengan membandingkannya dengan optimal historis. Tujuan memori adalah untuk menyimpan perhitungan secara prioritas, dan setiap kali prosesor menyelesaikan perhitungan, memori melempar perhitungan berikutnya ke prosesor.
DQN pada dasarnya sama.
Itu pada dasarnya apa arti Q, jadi apa artinya *?
** Dilihat dari analisis banyak orang dalam industri, sangat mungkin bahwa * mengacu pada algoritma A *. **
Ini adalah heuristik. Tanpa terburu-buru membahas apa itu heuristik, izinkan saya menceritakan sebuah lelucon:
A bertanya kepada B, “Cepat temukan produk 1928749189571*1982379176”, dan B segera menjawab, “32”. Ketika saya mendengar ini, saya bertanya-tanya bahwa ketika dua angka dari jumlah yang begitu besar dikalikan, tidak mungkin jawabannya menjadi dua digit. B bertanya kepada A: “Apakah Anda akan mengatakan itu cepat?”
Tampaknya keterlaluan, tetapi heuristik adalah sama.
Esensinya adalah estimasi, dan Anda hanya dapat memilih satu antara efisiensi dan solusi positif. Entah itu sangat efisien, tetapi terkadang salah, atau sangat akurat, dan terkadang butuh waktu lama. Algoritma A * pertama-tama menggunakan algoritma heuristik untuk memperkirakan nilai perkiraan, yang kemungkinan akan sangat menyimpang dari solusi yang benar. Setelah estimasi selesai, loop mulai melintasi, dan jika tidak ada cara untuk menyelesaikannya, itu dinilai kembali sampai solusi mulai muncul. Ini diulang untuk akhirnya sampai pada solusi terbaik.
Meskipun solusi terbaik dapat diperoleh, A* adalah tipe kedua yang disebutkan di atas, dan jawabannya benar, dan butuh waktu lama. Tidak apa-apa untuk meletakkannya di lingkungan lab, tetapi jika algoritma ini ditempatkan pada perangkat pribadi, itu dapat menyebabkan luapan memori dan menyebabkan masalah sistem, seperti layar biru.
Oleh karena itu, keterbatasan ini membuat algoritma A* sering diterapkan pada beberapa model yang kurang kompleks di masa lalu, yang paling khas adalah pencarian jalur karakter dalam game online. Dalam beberapa game besar, saat karakter mulai mencari jalur, itu karena algoritma A *.
Secara keseluruhan, konsensus saat ini dalam lingkaran kecerdasan buatan adalah bahwa ** Algoritma Q * yang disebutkan dalam surat internal OpenAI mungkin merupakan kombinasi dari pembelajaran Q dan A, yaitu, menghemat daya komputasi, menghemat memori, dan mendapatkan solusi terbaik - karena tidak selalu dapat menghabiskan lebih banyak daya komputasi dan membuang memori, dan akhirnya tidak bisa mendapatkan solusi terbaik!
Dan, sama seperti OpenAI akhirnya membuat model dasar, itu juga ada untuk waktu yang lama, dan bahkan diabaikan oleh orang-orang untuk sementara waktu, sampai OpenAI menemukan kembali potensinya dengan metode spesifik dan inovatif. Saat ini, orang secara alami memiliki alasan untuk percaya bahwa dalam dua ide algoritma lama Q dan A, OpenAI dapat mengulangi trik lama dan menciptakan keajaiban lagi - tentu saja, bahaya yang dapat ditimbulkan keajaiban ini kepada umat manusia juga telah membuat lebih banyak orang khawatir karena lelucon OpenAI baru-baru ini.
Oleh karena itu, kembali ke algoritma ini, Q* kemungkinan besar menggunakan pembelajaran Q untuk dengan cepat menemukan penilaian solusi yang hampir optimal, dan kemudian menggunakan algoritma A* untuk menyelesaikannya di area kecil, menghilangkan banyak proses perhitungan yang tidak berarti, sehingga dapat dengan cepat menemukan solusi terbaik. Tapi apa sebenarnya yang akan dilakukan OpenAI harus menunggu kertas publik (jika bisa menunggu).
Munculnya **Q* sebenarnya menunjukkan masalah, dan perusahaan-perusahaan terkemuka kecerdasan buatan menyadari bahwa proses penyelesaian dalam perkembangan kecerdasan buatan saat ini lebih bermakna daripada penyelesaian. Karena sekarang hanya mengejar kebenaran jawaban tidak bisa lagi memenuhi kebutuhan masyarakat akan kecerdasan buatan. Misalnya, di OpenCompass, meskipun perbedaan skor rata-rata adalah 10 atau 20 poin, jika Anda melihat keakuratan pemahaman, tidak ada kesenjangan besar antara model terbaik dan model terburuk.
Di tengah spekulasi dan kepanikan, salah satu klaim tentang Q adalah bahwa Q dapat memecahkan masalah matematika yang sangat maju. Andrew Rogosky, direktur Surrey Institute for Human-Centered Artificial Intelligence, mengatakan: "Kami tahu bahwa AI yang ada telah terbukti mampu melakukan matematika di tingkat sarjana, tetapi tidak mampu menangani masalah matematika yang lebih maju. Tapi Q * kemungkinan besar digunakan untuk memecahkan masalah matematika yang sulit. "Mungkin saat Q * keluar, Anda bisa menguji dugaan Goldbach-nya. Matematika dianggap sebagai salah satu kristalisasi terbesar dari kebijaksanaan manusia, jadi Q * hanyalah nama kode yang telah menyebabkan kepanikan di Internet.
Dan di belakang Q* juga terkait dengan misi OpenAI - yaitu, eksplorasi kecerdasan umum buatan (AGI), dan bahkan kecerdasan super. OpenAI mendefinisikan AGI sebagai sistem otonom yang melampaui manusia dalam tugas yang paling bernilai ekonomis, dan Q * adalah langkah menuju AGI oleh OpenAI.
Saat ini, OpenAI belum mengomentari Q dan kebocoran surat internal, tetapi saya memiliki perasaan campur aduk. Saya senang Q * memiliki kemampuan yang kuat, dan pengembangan kecerdasan buatan akan melangkah lebih jauh. Pada saat yang sama, saya juga khawatir gimmick Q* lebih besar dari kenyataan, dan pada akhirnya, hasil tesnya seperti itu pada hari dirilis, yang membuat wajah saya ditampar.