Penurunan tajam! Bahkan AI terkuat pun tidak mampu mengatasi pengembangan jangka panjang: semakin banyak kode yang ditumpuk, semakin cepat sistem mengalami keruntuhan

MaticHoleFiller · 2026-04-05T22:45:21+00:00

> 炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！（来源：DeepTech深科技）Tulis sebuah fungsi, AI hampir tak terkalahkan; tetapi mengapa saat memelihara sebuah sistem, AI mulai mengalami keruntuhan?Saat ini, kecerdasan buatan telah memasuki "paruh kedua". Seiring kemampuan pemrograman AI yang terus meningkat, produk seperti OpenClaw secara bertahap muncul, dan “CLI everything” sedang menjadi kenyataan, yaitu AI tidak perlu mengoperasikan komputer, melainkan semua antarmuka diubah menjadi antarmuka baris perintah (CLI), satu per satu keterampilan berubah menjadi fungsi perangkat lunak.Sekarang, Agent tidak lagi hanya sebagai alat percakapan untuk menyelesaikan tugas tunggal, tetapi sedang menuju operasi jangka panjang, dan berinteraksi dengan dunia nyata

MaticHoleFiller

2026-04-05 22:45:21

бер инвестasikan saham, cukup lihat laporan riset analis dari Golden Qilin: berwenang, profesional, tepat waktu, komprehensif—membantu Anda menggali peluang tema berpotensi!

（Sumber: DeepTech深科技）

Tulis sebuah fungsi, AI hampir tak terkalahkan; tetapi memelihara sebuah sistem, mengapa AI mulai runtuh?

Saat ini, kecerdasan buatan sudah memasuki “babak setengah kedua”. Seiring kemampuan pemrograman AI terus meningkat, produk seperti OpenClaw perlahan muncul, dan “CLI everything” sedang menjadi kenyataan: AI tidak perlu mengoperasikan komputer, melainkan semua antarmuka diubah menjadi antarmuka baris perintah (CLI). Keahlian-keahlian demi keahlian berubah menjadi fungsi-fungsi perangkat lunak.

Namun, Agent kini bukan lagi sekadar alat percakapan untuk menjalankan tugas sekali pakai, melainkan sedang berkembang menjadi sistem untuk operasional jangka panjang, berinteraksi dengan dunia nyata, dan menjalankan tugas-tugas kompleks. Akan tetapi, muncul masalah baru: dalam proses evolusi yang berkelanjutan, apakah AI bisa terus beradaptasi dengan lingkungan baru dan menjaga kemampuan pengembangan tetap stabil?

Ilmuwan AI utama di kantor “CEO/Presiden” Tencent, Yao Shunyu, pernah menyebut dalam sebuah blog berjudul “The Second Half” bahwa tugas pemrograman dunia nyata bersifat kontinu yang saling bergantung, bukan tugas independen yang berjalan paralel; tetapi saat ini dunia akademik tidak memiliki benchmark semacam itu untuk menilai kemampuan AI yang dibutuhkan dalam skenario tersebut, bahkan kurang keberanian untuk mematahkan asumsi bahwa antar-tugas itu independen—yang selama ini secara luas dianggap benar, dan digunakan untuk menyederhanakan masalah.

Baru-baru ini, tim gabungan dari University of Southern California, University of California Riverside, Stanford University, Princeton University, dan OpenHands merilis sebuah benchmark penilaian baru EvoClaw, yang mengajukan solusi baru untuk masalah di atas. Tim peneliti mengekstrak sejarah evolusi kode berkualitas tinggi dari proyek open source, sehingga Agent dapat menyelesaikan puluhan iterasi fungsional yang saling bergantung secara berurutan dalam satu basis kode yang sama.

Hasilnya menunjukkan bahwa AI terbaik dapat tampil sangat baik pada tugas evaluasi yang independen (skor 80%+). Namun, ketika masuk ke skenario dunia nyata berdurasi panjang, bahkan Claude Opus 4.6 yang memiliki skor gabungan tertinggi pun hanya memperoleh 38,03% skor. Ini berarti bahwa AI cenderung menyimpang dari jalur ketika menjalankan tugas dengan kebebasan eksekusi lebih tinggi; dan masih terdapat jarak yang signifikan antara kemampuannya dengan pekerjaan evolusi perangkat lunak jangka panjang yang berkelanjutan dan saling terhubung.

（Sumber: arXiv）

Penelitian ini mengungkap bahwa dalam evolusi jangka panjang, AI sangat mudah terjebak pada “tunggakan teknis” bergulir seperti bola salju. Walaupun mampu terus menambahkan fitur baru, ia tidak dapat mengendalikan akumulasi kesalahan yang berulang, yang akhirnya membuat sistem kehilangan kendali. Ini juga berarti bahwa pemrograman dengan AI sedang beralih dari menulis kode menuju tata kelola sistem.

Makalah terkait berjudul 《EvoClaw: Evaluating AI Agents on Continuous Software Evolution》（EvoClaw: Evaluating AI Agents on Continuous Software Evolution), dan baru-baru ini dipublikasikan di situs preprint arXiv[1].

Gambar丨Makalah terkait (Sumber: arXiv)

Evaluasi pemrograman AI yang ada dan pengalaman nyata tidak selaras—di mana letak masalahnya?

Mengapa model-model papan atas yang meraih skor tinggi dalam evaluasi independen justru gagal bersama-sama dalam evaluasi EvoClaw? Akar masalahnya ada pada perubahan paradigma evaluasi.

Dalam penelitian-penelitian sebelumnya, sebagian besar benchmark penilaian pemrograman arus utama berfokus pada tugas-tugas independen: diberikan sebuah isu (issue) atau permintaan penarikan (PR, Pull Request), model memperbaiki snapshot kode yang statis, dan verifikasi lulus menandai berakhirnya evaluasi.

Namun, antara skor benchmark yang sebelumnya dan kemampuan pengembangan di dunia nyata terdapat jurang yang tidak bisa diabaikan: lingkungan statis adalah kondisi yang relatif ideal, sedangkan lingkungan nyata jauh lebih kompleks dan dinamis. Seiring berjalannya waktu, bahkan bug yang kecil beberapa bulan lalu dapat menjadi semakin besar seperti bola salju setelah iterasi versi, lalu akhirnya membuat sistem runtuh.

（Sumber: arXiv）

Penulis pertama makalah tersebut, mahasiswa doktoral Universitas Southern California, Deng Gangda, mengatakan kepada DeepTech: “Butiran commit dan release yang ada, baik terlalu terlalu rinci maupun terlalu terlalu kasar. Karena itu, sejarah pengembangan ini tidak dapat mencerminkan proses evolusi perangkat lunak.”

Gambar丨Deng Gangda (Sumber: yang diwawancarai)

Tim peneliti untuk pertama kalinya memasukkan dimensi waktu ke dalam kerangka evaluasi kemampuan pemrograman AI, menggunakan level baru yang sepenuhnya berbeda—milestone—untuk merekonstruksi sejarah evolusi perangkat lunak, sehingga menjadi unit fungsional yang bisa menjaga kelengkapan semantik dan mempertahankan hubungan ketergantungan evolusi. Ia menuntut AI menyelesaikan beberapa unit fungsional secara berurutan dalam basis kode yang sama; selain mempertahankan keluaran tiap langkah, itu juga menjadi titik awal bagi langkah berikutnya.

（Sumber: arXiv）

Untuk mendukung pengekstrakan sejarah evolusi perangkat lunak berkualitas tinggi dari banyak repositori kode open source, peneliti mengusulkan serangkaian pipeline otomatis yang digerakkan Agent, DeepCommit, berdasarkan kapabilitas kuat AI tingkat teratas. Ini pertama kali mewujudkan rekonstruksi catatan pengembangan Git yang berantakan menjadi graf dependensi tugas milestone (Milestone DAG) yang dapat diverifikasi dan kohesif secara fungsi, serta membangun lingkungan evaluasi untuk setiap milestone. Ini terutama mencakup tiga tahap: praproses sejarah Git, konstruksi DAG yang digerakkan oleh Agent, serta konfigurasi dan verifikasi lingkungan milestone.

Sebenarnya, merekonstruksi evolusi sejarah Agent dengan Milestone bukanlah perkara mudah, karena ia tidak hanya perlu membangun sebuah DAG statis yang benar-benar bisa dipantau, melainkan juga serangkaian lingkungan evaluasi yang dapat dieksekusi, serta memastikan kebenaran sekaligus menghadapi perubahan pada dependensi evolusi.

Artinya, ketika mengacak urutan commit secara menyeluruh dan mengelompokkannya kembali lalu menghubungkannya, bisa saja muncul situasi di mana commit tidak bisa diterapkan, antarmuka tidak cocok, dan terjadi banyak error kompilasi. Untuk mengatasi masalah tersebut, peneliti merancang loop perbaikan iteratif: Agent secara proaktif menganalisis log error, lalu secara dinamis memodifikasi Dockerfile agar tetap dapat dieksekusi.

Yang lebih penting, ia akan menambahkan dependensi implisit yang terlewat berdasarkan DAG yang ada. Dengan menyesuaikan hubungan batasan urutan Milestone, konflik antarmuka dapat diselesaikan dengan tepat. Setelah berulang kali melakukan iterasi, akhirnya tercapai pengumpulan yang benar terhadap 87,1% dari seluruh kasus uji yang asli.

“Dibandingkan skenario tugas pemrograman tunggal, pemrograman otonom jangka panjang yang stabil, andal, dan efektif adalah fokus penelitian yang lebih mutakhir. Misalnya, Anthropic dan OpenAI secara jelas menyatakan bahwa mereka telah mengalihkan fokus ke kemampuan pemrograman jangka panjang saat melatih model.” kata Deng Gangda.

Gambar丨Diagram arsitektur pipeline DeepCommit (Sumber: arXiv)

Peneliti membandingkan graf evolusi yang dihasilkan otomatis oleh DeepCommit dengan anotasi manual para ahli manusia. Yang membuat mereka terkejut adalah, keduanya menggunakan logika organisasi yang berbeda dan saling melengkapi.

Secara spesifik, Milestone dari para ahli manusia biasanya berada dalam jendela waktu lokal: mereka menetapkan topik terlebih dahulu lalu mengelompokkan commit—ini adalah pemecahan semantik top-down. Sementara DeepCommit, demi memastikan akurasi mutlak, berangkat dari hubungan dependensi antar-commit, lalu membangun kembali alur evolusi perangkat lunak dari bawah ke atas. Ia lebih menekankan struktur topologi dan batasan eksekusi.

Untuk keperluan evaluasi, ini justru menunjukkan bahwa kunci DeepCommit adalah mengekstrak struktur milestone yang bisa dieksekusi dan bisa diverifikasi dari sejarah pengembangan kode. Dari hasil yang didapat, DeepCommit dapat menyaring milestone berkualitas tinggi yang cocok untuk evaluasi, dan dalam lingkungan nyata dapat dieksekusi serta diverifikasi, sehingga menyediakan jaminan bagi reliabilitas evaluasi.

Begitu masuk ke pengembangan nyata, mengapa nilai model justru “dipangkas setengah” secara serentak?

EvoClaw mencakup lima bahasa pemrograman utama, yaitu Python, Java, Go, Rust, dan TypeScript. Proyek yang dipilih memiliki rentang siklus pengembangan nyata terpanjang hingga 750 hari.

Dalam aspek metrik evaluasi, tim peneliti tidak memakai tingkat kelulusan (passing rate) yang sederhana, melainkan memperkenalkan dua dimensi yang lebih inti—recall (Recall) dan precision (Precision)—sebagai F1 tertimbang untuk memberi skor setiap milestone. Recall digunakan untuk mengukur kelengkapan implementasi fungsi, sedangkan precision menangkap sejauh mana model saat menambah fitur justru merusak kode yang sudah ada.

Tim peneliti menguji berbagai kombinasi framework dan model seperti Claude Code, OpenHands, dan lainnya. Hasilnya menunjukkan bahwa pada evaluasi independen, skor model-model papan atas umumnya berada di kisaran 80%-90%. Namun setelah menjalani pengujian benchmark EvoClaw, performa mereka anjlok secara drastis. Bahkan Claude Opus 4.6 yang mendapat skor tertinggi hanya meraih 38,03% skor.

Gambar丨Hasil eksperimen utama EvoClaw (Sumber: arXiv)

GPT 5.3 Codex dengan skor gabungan 28,88% berada tepat di bawah Opus 4.6, menempati posisi kedua. Jika dilihat per repositori, GPT 5.3 Codex lemah di dua proyek Rust (Nushell, ripgrep), tetapi pada repositori lainnya ia mampu mendekati bahkan melampaui Opus 4.6. Dalam tingkat penyelesaian lengkap (full resolution), Gemini 3 Pro yang memperoleh skor tertinggi pun hanya 13,37%, dan sebagian besar yang berhasil diimplementasikan dengan benar adalah tugas-tugas yang tidak memiliki dependensi awal.

Diketahui bahwa peneliti mengendalikan biaya total dalam batas yang wajar. Misalnya, untuk Claude Opus 4.5, biaya untuk menjalankan evaluasi lengkap sekitar 500 dolar AS; Kimi K2.5 dan Gemini 3 Flash berada di bawah 50 dolar AS; biaya untuk model kecil akan lebih rendah lagi.

（Sumber: arXiv）

Lalu, jika diberi jendela pengembangan yang lebih panjang, apakah pada akhirnya ia bisa menyelesaikan proyek hingga 100%?

Penelitian memberi jawaban negatif: apa pun panjang jendela pengembangan, performa semua model pada akhirnya akan menabrak “batas langit-langit”. Semakin urutan eksekusi tugas berada di belakang, dan semakin dalam level DAG yang ditempati, semakin rendah skor dan tingkat penyelesaiannya. Hasil ekstrapolasi di luar fungsi jenuh membuktikan bahwa bahkan Opus 4.6 yang terbaik sekalipun, skor kumulatifnya akan macet di garis asimtotik sekitar 45%.

“Meski Opus 4.6 di situs resmi Anthropic menyebut bahwa ia tampil lebih baik daripada 4.5 dalam tugas jangka panjang, mereka tidak memberikan indikator evaluasi yang rinci. EvoClaw menilai pernyataan tersebut dari sudut pandang lain.” kata Deng Gangda.

Selain itu, dari eksperimen terlihat adanya perbedaan yang signifikan antar keluarga model. Secara spesifik, performa Claude dan GPT dalam skenario evolusi berkelanjutan akan meningkat secara bertahap seiring pembaruan versi. Di antaranya, Opus 4.6 membuktikan performa terbaik dalam pemrograman jangka panjang terhadap kemampuan pemeliharaan sistem; sementara GPT 5.3 berada di urutan kedua karena skor diturunkan oleh performa yang kurang baik pada dataset Rust.

（Sumber: arXiv）

Yang paling mengejutkan adalah bahwa keluarga Gemini justru menunjukkan tren yang benar-benar berbeda: dari 3 Flash ke 3 Pro lalu ke 3.1 Pro—setiap generasi memulai lebih cepat di tahap awal dan menunjukkan performa yang lebih baik di fase awal, tetapi performa jarak jauh hampir tidak mengalami peningkatan yang signifikan. Deng Gangda menjelaskan: “Penurunan yang jelas pada performa Gemini saat menjalankan siklus panjang berarti bahwa ia tidak hanya semakin buruk dalam mengikuti instruksi, semakin mengabaikan kebutuhan spesifikasi perangkat lunak (SRS), sekaligus kekurangan kemampuan pemeliharaan pada sistem perangkat lunak yang dibangun.”

Ketika peneliti membagi skor total lebih jauh menjadi recall dan precision, muncul fenomena yang lebih menarik: recall hampir terus meningkat, mendekati pertumbuhan yang hampir linear. Ini berarti bahwa meskipun basis kode menjadi semakin kacau dan semakin rapuh, Agent tetap ahli dalam mengimplementasikan fungsi tujuan baru yang diberikan saat ini.

Akan tetapi, bottleneck sebenarnya ada pada precision: Agent sulit mempertahankan sistem yang sudah ada; laju akumulasi error balik melampaui kemampuan mereka untuk memperbaiki masalah-masalah tersebut. Dan inilah akar dari mengapa pengembangan jangka panjang akhirnya mandek.

Gambar丨Kiri: ilustrasi rantai error; Kanan: distribusi rantai error (Sumber: arXiv)

Untuk memahami lebih dalam penyebab mendasar model menjadi tidak terkendali selama iterasi, tim peneliti mengusulkan kerangka analisis Error Chains (Rantai Error). Mereka melacak setiap tes mulai dari kesalahan pertama, lalu mengamati apakah error diwariskan, menyebar, dilewati, atau diperbaiki pada Milestone berikutnya.

Hasilnya menemukan bahwa kecepatan munculnya masalah baru tidak semakin cepat. Bahkan, model secara nyata memperbaiki sebagian error historis yang tertahan. Tetapi laju akumulasi error prasyarat jauh melebihi laju perbaikan, sehingga akhirnya terjebak dalam “kebangkrutan tunggakan teknis”.

Untuk debugging AI Harness: sediakan evaluasi yang bersifat umum

Baru-baru ini, ada konsep yang sangat populer: “Harness Engineering”, yang bertujuan menyiapkan seluruh proses pengembangan perangkat lunak dalam lingkungan yang cocok agar Agent dapat terlibat. Benchmark EvoClaw menyediakan playground yang serupa, bersifat umum, dan cocok untuk mengevaluasi evolusi kode jangka panjang, sehingga pas untuk debugging framework AI Harness.

Misalnya, untuk kasus kegagalan yang disebut dalam penelitian ini: jika Agent tiba-tiba menunjukkan iterasi yang sangat proaktif, atau terus mengedit dan terus memverifikasi, kemungkinan besar Agent sedang menghadapi kesulitan. Dalam situasi seperti ini, Anda bisa membangun pelindung (guardrail) di posisi yang sesuai untuk mendeteksi masalah sedini mungkin dan melakukan intervensi manusia tepat waktu, sehingga meningkatkan efisiensi.

Mengingat arsitektur model membuat Agent memiliki sifat umum “lebih kuat mewujudkan fungsi baru daripada memelihara fungsi lama jangka panjang”, apakah ke depan akan memunculkan bentuk perangkat lunak dan pola pengembangan baru?

Misalnya, perangkat lunak akan lebih menekankan fleksibilitas dan kompatibilitas, serta lebih andal dalam reorganisasi perubahan skala besar; atau justru lebih “sekali pakai”, di mana logika bisnis spesifik dihasilkan secara real-time tanpa perlu pemeliharaan, dengan fokus pada penguatan komponen dan infrastruktur yang dapat digunakan kembali.

Tim peneliti berpendapat bahwa dalam pola pengembangan, dengan melonggarkan batasan terhadap kualitas perangkat lunak secara tepat, jumlah intervensi manusia bisa dikurangi untuk mendapatkan throughput yang lebih besar, dan pada akhirnya mempercepat iterasi perangkat lunak.

Deng Gangda menyoroti, “Penelitian ini membuktikan bahwa kita sedang berjalan di jalur yang benar. Kemampuan pemrograman jangka panjang AI belum menemukan bottleneck; ia bisa meningkat secara stabil seiring waktu. Ada potensi suatu hari, dari perubahan kuantitatif berupa skor di papan peringkat, berubah menjadi perubahan kualitatif yang mengubah dunia.”

Seiring perkembangan teknologi, di masa depan AI mungkin akan berkembang dari mengurangi keterlibatan manusia dalam pengembangan perangkat lunak, menjadi AI yang secara mandiri mengajukan kebutuhan baru untuk mengembangkan basis kode, hingga akhirnya AI benar-benar melampaui manusia, meninggalkan manusia, dan mewujudkan evolusi diri yang terus-menerus.

Referensi:

Makalah terkait:
Beranda proyek:

Tata letak: 刘雅坤

Melimpahnya informasi dan interpretasi yang akurat—hanya di aplikasi Sina Finance APP

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka