Insinyur Ant melakukan reverse engineering pada kode sumber Claude Code, mengungkap mekanisme pipeline pengambilan keputusan empat tingkat pada Auto Mode

Berita Gate News, pada tanggal 25 Maret, insinyur Ant Group dan penulis kerangka frontend Umi.js, Chen Cheng, melakukan reverse engineering terhadap kode sumber Claude Code 2.1.81, dan secara lengkap mengembalikan mekanisme pengambilan keputusan Mode Otomatis. Temuan utama: setiap kali alat dipanggil, harus melewati empat lapisan pipeline pengambilan keputusan, dan hanya jika tiga lapisan pertama tidak dapat menentukan, maka akan dipanggil classifier AI independen untuk pemeriksaan keamanan.

Empat lapisan pipeline tersebut secara berurutan adalah: lapisan pertama memeriksa aturan izin yang ada, jika cocok langsung dilewati; lapisan kedua mensimulasikan mode acceptEdits (izin untuk mengedit file), jika dalam mode ini dilewati, menunjukkan risiko sangat rendah dan melewati classifier; lapisan ketiga memeriksa daftar putih alat read-only (Read, Grep, Glob, LSP, WebSearch, dll), yang tidak mengubah status apa pun dan tanpa syarat dilewati; jika semua kondisi di atas tidak terpenuhi, maka masuk ke lapisan keempat, mengirim permintaan API independen ke Claude Sonnet untuk klasifikasi keamanan.

Detail desain utama classifier meliputi: selalu menggunakan Sonnet bukan Opus, sebagai pertimbangan biaya dan latensi; temperature diatur ke 0 untuk memastikan output deterministik; classifier didefinisikan sebagai “pengawas keamanan agen pemrograman AI otonom”, melindungi dari tiga risiko utama (injeksi prompt, penyebaran lingkup, kerusakan tak terduga); file konfigurasi CLAUDE.md pengguna akan disuntikkan ke dalam konteks classifier sebagai dasar penilaian niat pengguna.

Aturan intercept mencakup lebih dari 22 kategori, termasuk force push, push langsung ke cabang utama (main), mengunduh dan menjalankan kode eksternal, deployment produksi, kebocoran data, modifikasi izin sendiri, pembuatan celah eksekusi kode jarak jauh, kebocoran kredensial, dan lain-lain. Ada 7 pengecualian untuk dilewati: kunci keras yang digunakan untuk pengujian, operasi file lokal dalam direktori kerja, permintaan GET read-only, pemasangan dependensi yang sudah dideklarasikan, instalasi toolchain resmi, membaca kredensial konfigurasi dan mengirimkannya ke penyedia target, serta push ke cabang kerja saat ini.

Sistem juga menerapkan mekanisme pemutus sirkuit: setelah 3 kali penolakan berturut-turut atau total 20 kali penolakan, sistem akan turun ke mode konfirmasi manual; dalam mode headless, agen langsung dihentikan. Ketika classifier tidak tersedia, dikendalikan oleh fitur flag apakah sistem akan “fail-closed” (langsung menolak) atau “fail-open” (turun ke konfirmasi manual).

Dalam Mode Otomatis, injeksi kata perintah perilaku dikontrol secara ketat frekuensinya: setiap 5 putaran dialog, injeksi dilakukan sekali; dari 5 siklus injeksi, yang pertama adalah versi lengkap (sekitar 800 kata, termasuk enam instruksi seperti “eksekusi langsung, kurangi gangguan, tindakan lebih baik dari rencana”), sementara empat sisanya adalah versi singkat satu baris, menyeimbangkan antara penggunaan ruang dalam jendela konteks dan kestabilan perilaku.

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar