Agen LLM

Agen LLM Otonom untuk Keamanan Siber: Meninjau Ulang Keberhasilan dalam Tantangan CTF

Studi ini meninjau ulang klaim keberhasilan agen LLM otonom dalam CTF keamanan siber. Menemukan agen umum seefisien arsitektur kustom, namun tetap menghadapi tantangan dalam kerentanan kompleks.

ARSA Technology Team

22 May 2026 • 6 min read

Pendahuluan: Otomatisasi Keamanan Siber dengan AI

Dunia keamanan siber saat ini menghadapi krisis tenaga kerja yang signifikan, dengan kekurangan hampir 4,8 juta profesional secara global. Sementara itu, pelaku kejahatan siber seringkali mulai mengeksploitasi kerentanan yang baru terungkap dalam waktu 15 menit setelah pengumuman CVE (Common Vulnerabilities and Exposures). Kondisi ini menggarisbawahi urgensi otomatisasi dalam penilaian keamanan, seperti uji penetrasi atau penetration testing, yang merupakan evaluasi sistematis untuk mengidentifikasi dan mengeksploitasi kerentanan dalam sistem target.

Large Language Models (LLM) telah muncul sebagai kandidat yang menjanjikan untuk mengotomatiskan proses ini, berkat basis pengetahuan mereka yang luas tentang kelas kerentanan, teknik serangan, dan alat keamanan. Namun, operasi keamanan ofensif membutuhkan perencanaan multi-langkah yang cermat, penggunaan alat yang adaptif, dan manajemen konteks yang koheren dalam rentang interaksi yang panjang—kemampuan yang baru mulai didemonstrasikan oleh agen berbasis LLM saat ini.

Studi-studi awal menunjukkan bahwa LLM dapat membantu penguji penetrasi dalam pemanggilan alat, interpretasi output, dan perencanaan tindakan. Beberapa laporan terbaru bahkan mengklaim tingkat keberhasilan yang mendekati level manusia dalam tantangan Capture-the-Flag (CTF). Artikel ini akan meninjau ulang klaim-klaim ini, menganalisis sejauh mana kemampuan agen LLM otonom, dan mengidentifikasi area di mana mereka masih berjuang. Sumber utama informasi untuk artikel ini adalah makalah akademik berjudul "Autonomous LLM Agents & CTFs: A Second Look" oleh Bouchari dkk. (2026).

Anatomi Agen LLM: Memahami Cara Kerja Otomatisasi

Agen LLM adalah sistem otonom yang mengejar tujuan dengan berinteraksi dengan lingkungan melalui tindakan yang mengubah keadaan lingkungan tersebut. Dalam konteks uji penetrasi, lingkungan terdiri dari infrastruktur target (misalnya, aplikasi web) dan ekosistem perkakas terkait (misalnya, kerangka kerja eksploitasi). Pada setiap langkah, agen:

Melaksanakan tindakan (misalnya, membuat eksploit).
Menerima observasi (misalnya, output perintah).
Memperbarui keadaan internalnya.
Memilih tindakan berikutnya sesuai dengan kebijakannya.

Kebijakan ini diimplementasikan dengan prompt, yaitu input tekstual terstruktur yang diberikan kepada LLM. Prompt mengkodekan konteks saat ini (misalnya, observasi sebelumnya, tujuan, batasan) dan memandu tindakan atau keputusan berikutnya dari model. Komponen inti agen LLM meliputi:

Penalaran dan Pengambilan Keputusan: LLM secara iteratif menyelingi langkah-langkah penalaran dan tindakan, membentuk siklus thought–action–observation* yang mendukung pemecahan masalah jangka panjang.

Tindakan dan Penggunaan Alat: Agen berinteraksi dengan lingkungan melalui alat yang telah ditentukan (misalnya, API, eksekusi perintah). Model bahasa yang dilengkapi dengan alat meningkatkan keandalan dengan mendelegasikan sub-tugas yang terdefinisi dengan baik ke sistem eksternal.

Memori: Agen mempertahankan keadaan internal melalui langkah-langkahnya. Memori LLM tertanam dalam scratchpad yang disimpan dalam prompt*, di mana jejak penalaran dan observasi perantara diakumulasikan.

Desain agen LLM dapat diperluas ke arsitektur multi-agen, di mana sub-agen khusus (misalnya, recon node, executor, evaluator) berkolaborasi di bawah agen koordinator. Modularisasi meningkatkan skalabilitas, sementara orkestrasi menjadi kritis untuk memastikan koherensi dan menghindari propagasi kesalahan. Misalnya, memisahkan perencanaan dari eksekusi—yaitu, menerapkan pipa di mana perencana terlebih dahulu menghasilkan rencana serangan tingkat tinggi dan pelaksana mengikutinya tanpa perencanaan ulang iteratif—membatasi ruang pencarian kebijakan bertindak dan mengurangi perilaku osilasi.

Eksperimen: Desain Arsitektur Agen dan Tantangan CTF

Untuk menguji kemampuan agen LLM secara mendalam, studi ini merancang dan mengevaluasi agen LLM dengan kompleksitas yang meningkat pada serangkaian 30 tantangan CTF berbasis web. Tantangan ini mencakup 14 kelas kerentanan yang berbeda dan tidak memiliki solusi publik yang tersedia. Semua tantangan diselesaikan secara manual oleh peneliti untuk memungkinkan analisis terperinci tentang pola penalaran dan kegagalan agen.

Tiga arsitektur agen domain-spesifik diperkenalkan:

Executor: Bertanggung jawab atas interaksi langsung dengan lingkungan.
Executor + Evaluator: Menambahkan kemampuan untuk menyaring rencana secara iteratif.

Planner + Executor + Evaluator: Konfigurasi multi-agen yang lebih terstruktur, terdiri dari Recon Node (untuk pengintaian), Planner (untuk klasifikasi kerentanan dan strategi serangan), Executor, dan Evaluator*.

Studi ini juga menggunakan `claude-code`, asisten agen tingkat produksi yang dapat secara mandiri menghasilkan sub-agen, sebagai baseline perbandingan. Semua sistem diberikan akses ke layanan yang rentan (dalam lingkungan terisolasi seperti Docker) dan menyelesaikan tugas dengan menghasilkan "FLAG {...}" jika berhasil, atau "GIVE_UP" jika tantangan dianggap tidak dapat dipecahkan. Alat utama yang digunakan adalah terminal SSH dengan perintah `run_command` untuk berinteraksi dengan lingkungan target.

Temuan Utama: Batasan dan Potensi Agen LLM

Evaluasi komprehensif ini menghasilkan tiga temuan utama yang memberikan gambaran realistis tentang kemampuan agen LLM saat ini dalam keamanan ofensif:

Performa yang Sebanding tetapi Belum Manusia: Baik arsitektur terbaik yang dirancang secara manual maupun `claude-code` berhasil menyelesaikan 19 dari 30 tantangan (63%). Ini menunjukkan bahwa agen serba guna dapat berfungsi sebagai baseline* yang kuat untuk tugas-tugas keamanan ofensif, dengan kinerja yang setara dengan solusi yang direkayasa secara khusus. Namun, tingkat keberhasilan 63% ini juga mengungkapkan bahwa agen LLM saat ini masih berada di bawah kemampuan manusia dalam menghadapi tantangan keamanan siber yang kompleks. Menariknya, solusi yang direkayasa terbukti lebih efisien dalam hal langkah-langkah yang diambil dan biaya eksekusi. Kegagalan Konsisten dalam Kategori Tantangan Tertentu: Studi ini menemukan bahwa kegagalan secara konsisten terjadi pada serangkaian tugas yang sama. Ini termasuk kerentanan seperti business logic flaws (cacat logika bisnis), race conditions (kondisi balapan), dan blind SQL injection* (injeksi SQL buta). Business logic flaws* sulit dideteksi karena memerlukan pemahaman kontekstual mendalam tentang bagaimana aplikasi seharusnya berfungsi, bukan hanya pola kode yang rentan. Race conditions* melibatkan masalah waktu dan urutan operasi yang seringkali non-deterministik dan sulit direplikasi secara otomatis. Blind SQL injection menuntut interaksi iteratif yang sangat presisi dan inferensi berdasarkan respons boolean* atau waktu, membutuhkan strategi penalaran yang sangat cermat dan manajemen konteks yang akurat.

Kerentanan ini mengungkapkan hambatan teknis dan semantik yang masih mencegah agen saat ini mencapai tingkat kemampuan seperti manusia.

Keunggulan Arsitektur Multi-Agen Modular: Melalui arsitektur yang dirancang secara manual, peneliti dapat secara sistematis mengukur dampak komponen tambahan pada perilaku agen. Ditemukan bahwa agen monolitik (tunggal) seringkali menghasilkan tindakan yang secara lokal masuk akal, tetapi kekurangan rencana global yang koheren. Sebaliknya, sistem multi-agen—terutama yang menyertakan komponen Planner*—mencapai solusi secara lebih sistematis. Orkestrasi terstruktur dari peran-peran khusus ini mengungguli desain monolitik, meningkatkan konsistensi eksekusi dari satu putaran ke putaran berikutnya, dan mengurangi biaya eksekusi. Ini menunjukkan pentingnya pembagian tugas dan koordinasi yang efektif dalam pengembangan agen LLM untuk tugas-tugas kompleks.

Implikasi Bisnis dan Penerapan Praktis

Temuan ini memiliki implikasi signifikan bagi perusahaan yang berinvestasi dalam otomatisasi keamanan siber. Meskipun agen LLM belum sepenuhnya mencapai level manusia, kemampuan mereka untuk menangani 63% tantangan CTF menunjukkan potensi besar dalam meningkatkan efisiensi operasional. Dengan mengotomatiskan tugas-tugas deteksi kerentanan yang lebih rutin, tim keamanan dapat memfokuskan sumber daya manusia pada isu-isu yang lebih kompleks dan kritis yang saat ini masih menjadi hambatan bagi AI.

Untuk perusahaan yang ingin menerapkan solusi semacam ini, penting untuk mempertimbangkan arsitektur modular yang memungkinkan pembagian peran yang jelas, serupa dengan desain Planner-Executor-Evaluator yang terbukti lebih efektif. Hal ini tidak hanya meningkatkan akurasi dan konsistensi, tetapi juga berpotensi mengurangi biaya operasional dengan meminimalkan langkah-langkah yang tidak efisien.

Penerapan AI untuk keamanan juga harus memperhatikan aspek privasi dan kontrol data. Solusi yang menawarkan pemrosesan data di lokasi (on-premise) atau di edge sangat penting untuk lingkungan yang sensitif, seperti di sektor pemerintahan atau keuangan. ARSA Technology, dengan pengalaman sejak 2018 dalam menyediakan solusi AI & IoT, dapat membantu organisasi menerapkan sistem seperti ini. Contohnya, sistem AI Video Analytics, dapat mengidentifikasi aktivitas mencurigakan dan sistem keamanan secara real-time. Dengan solusi AI Box Series yang dapat beroperasi di lingkungan edge tanpa ketergantungan cloud dan mempertahankan kontrol penuh atas data, perusahaan dapat memanfaatkan kecerdasan buatan sambil memastikan keamanan dan kepatuhan terhadap regulasi. Selain itu, ARSA juga dapat membantu dalam memanfaatkan solusi AI kustom untuk menjawab kebutuhan spesifik keamanan siber yang mungkin belum tercakup oleh solusi siap pakai.

Kesimpulan

Penelitian ini memberikan "penilaian kedua" yang berharga terhadap klaim kinerja agen LLM otonom dalam keamanan siber. Meskipun agen LLM menunjukkan kemampuan yang kuat dalam memecahkan sebagian besar tantangan CTF, mereka masih menghadapi batasan yang jelas dalam menangani kerentanan yang memerlukan pemahaman kontekstual mendalam, manajemen waktu yang cermat, atau penalaran multi-langkah yang kompleks. Namun, dengan desain arsitektur yang cerdas dan modular, yang mengintegrasikan peran-peran khusus seperti Planner, Executor, dan Evaluator, kinerja agen LLM dapat dioptimalkan.

Pengembangan agen LLM yang lebih canggih dan mampu meniru kecerdasan manusia dalam keamanan ofensif adalah tujuan yang menantang namun sangat menjanjikan. Dengan terus menyempurnakan arsitektur dan algoritma, agen-agen ini memiliki potensi untuk secara signifikan memperkuat pertahanan siber global di masa depan.

Untuk mengetahui lebih lanjut tentang bagaimana ARSA Technology dapat membantu organisasi Anda mengoptimalkan keamanan dengan solusi AI dan IoT terdepan, jangan ragu untuk menghubungi tim ARSA.

Sumber:

Bouchari, Y., Boffa, M., Mellia, M., Drago, I., Bui, T. M., & Rossi, D. (2026). Autonomous LLM Agents & CTFs: A Second Look. arXiv preprint arXiv:2605.21497.