Membingkai Ulang Keamanan Agen LLM: Mengapa Interaksi Agen-Manusia Sangat Penting

Keamanan agen LLM bergantung pada interaksi manusia. Analisis mendalam menunjukkan kesenjangan antara praktik industri dan riset akademis, mendorong pendekatan AHI.

Membingkai Ulang Keamanan Agen LLM: Mengapa Interaksi Agen-Manusia Sangat Penting

Membingkai Ulang Keamanan Agen LLM: Pendahuluan

      Agen berbasis Large Language Model (LLM) dengan cepat memperoleh kemampuan yang memiliki konsekuensi signifikan di dunia nyata. Mereka kini dapat menjalankan perintah shell, memodifikasi basis kode, mengorkestrasi alur kerja multi-langkah melalui API eksternal, dan bahkan menjelajahi web atas nama pengguna. Sistem seperti Claude Code, Codex, Cursor, Devin, dan Manus secara rutin melakukan tindakan yang, jika salah arah akibat prompt injection, halusinasi, atau miskonfigurasi, dapat membahayakan kerahasiaan, integritas, dan ketersediaan data serta infrastruktur pengguna. Risiko keamanan dari sistem agen ini bukan lagi hipotesis; melainkan sudah menjadi tantangan operasional yang nyata.

      Sebuah studi penting oleh Peiran Wang, Ying Li, dan Yuan Tian dari UCLA (2026), yang berjudul “Reframing LLM Agent Security as an Agent–Human Interaction Problem” (sumber), mengemukakan argumen bahwa keamanan agen LLM pada dasarnya adalah masalah interaksi agen-manusia (AHI), bukan semata-mata masalah algoritmik. Posisi ini didasarkan pada observasi empiris: setiap dari 21 sistem agen produksi yang dianalisis oleh penelitian tersebut melibatkan manusia dalam lingkaran keamanan, mengandalkan beberapa bentuk persetujuan pengguna, konfigurasi cakupan, atau spesifikasi kebijakan untuk membatasi perilaku agen. Tidak ada sistem yang diterapkan sepenuhnya mempercayakan LLM untuk menentukan apakah suatu tindakan aman.

Mengapa Keamanan Agen LLM Adalah Masalah Interaksi Agen-Manusia

      Tantangan inti dalam keamanan agen LLM adalah "penyelarasan niat" (intent alignment). Agen LLM beroperasi dalam lingkungan yang dinamis dan terbuka: mereka menjelajahi web, memanggil API, memodifikasi file, dan berinteraksi dengan layanan pihak ketiga. Karena ruang lingkup tindakan yang mungkin sangat luas dan bergantung pada konteks, pengguna tidak dapat sepenuhnya menentukan setiap izin yang mungkin dibutuhkan agen sebelum tugas dimulai. Sub-tujuan baru muncul selama eksekusi, status eksternal berubah secara tidak terduga, dan agen harus merencanakan ulang secara spontan. Dinamisme ini mengesampingkan skema otorisasi statis di awal sebagai solusi lengkap.

      Lebih jauh, banyak keputusan yang relevan dengan keamanan bersifat semantik, bukan sekadar sintaksis. Memutuskan apakah "menghapus semua file .tmp di direktori proyek" itu aman memerlukan pemahaman tentang struktur proyek dan alur kerja pengguna, bukan hanya pencocokan pola terhadap daftar panggilan sistem yang dilarang. Aturan berbasis pemrograman murni tidak memiliki ekspresivitas untuk menangkap penilaian tersebut. Kedua observasi ini—ketidakmungkinan spesifikasi penuh sebelumnya dan ketidakcukupan pemeriksaan berbasis aturan—menuju pada satu masalah inti: bagaimana kita dapat menilai apakah tindakan agen selaras dengan niat sebenarnya dari pengguna? Ini adalah tantangan penyelaras niat.

Dua Jalur Penyelarasan Niat: Otomatis vs. Manusia-di-Loop

      Dalam menghadapi tantangan penyelaras niat, terdapat dua strategi fundamental yang digunakan dalam pertahanan keamanan agen LLM:

Jalur A: Penyelarasan Niat Berbasis LLM (Didorong oleh Akademisi): Strategi ini mendelegasikan penilaian niat kepada LLM lain. Model sekunder (atau bagian khusus dari model yang sama) mengamati tindakan yang diusulkan oleh agen bersama dengan perintah pengguna asli dan memutuskan apakah tindakan tersebut dapat dibenarkan. Pendekatan ini mencakup pengklasifikasi penyelaras tugas yang menilai setiap panggilan alat terhadap tugas pengguna, kerangka kerja kontrol aliran informasi yang menggunakan LLM sebagai "hakim" untuk mendeteksi eksfiltrasi data yang tidak sah, dan teknik penjangkaran niat yang memperlakukan perintah pengguna sebagai jangkar semantik yang divalidasi terhadap semua tindakan selanjutnya. Jalur A menarik karena menjanjikan otomatisasi penuh: pengguna mengeluarkan tugas dan sistem menangani segalanya, termasuk keamanan. Namun, kemampuan LLM saat ini tidak cukup untuk menutup kesenjangan penyelaras niat tanpa partisipasi manusia. Pendekatan otomatis menghadapi batasan mendasar: mereka tidak dapat secara andal membedakan instruksi yang bersifat adversarial* dari yang sah dalam pengaturan penggunaan alat yang terbuka, dan mereka tidak memiliki akses ke niat yang berkembang dari pengguna, preferensi kontekstual, dan toleransi risiko.

  • Jalur B: Ekspresi Berbasis Manusia (Didorong oleh Industri): Sebaliknya, praktik industri menunjukkan ketergantungan yang kuat pada mekanisme keamanan yang berpusat pada manusia. Ketiga mekanisme yang paling banyak digunakan adalah:
  • Spesifikasi Kebijakan (Policy Specification): Pengguna secara eksplisit menetapkan aturan dan batasan untuk agen.
  • Persetujuan Saat Runtime (Runtime Approval): Pengguna memberikan persetujuan atau penolakan untuk tindakan agen pada saat tindakan tersebut diusulkan.
  • Konfigurasi Cakupan (Scope Configuration): Pengguna menentukan batasan operasional atau lingkungan tempat agen dapat berinteraksi.


      Studi oleh UCLA menemukan bahwa mekanisme berbasis manusia ini mendominasi praktik industri, dengan masing-masing diadopsi oleh setidaknya 14 dari 21 sistem produksi yang dianalisis. Hal ini menunjukkan bahwa manusia, terlepas dari keterbatasan kognitif mereka, tetap menjadi satu-satunya sumber kebenaran yang tersedia untuk menentukan apakah tindakan agen selaras dengan tujuan sebenarnya dari pengguna. Organisasi yang membutuhkan kontrol penuh atas data dan operasional mereka, seperti yang dilayani oleh ARSA AI Video Analytics Software atau ARSA AI Box Series, memahami bahwa intervensi manusia adalah kunci untuk memastikan kepatuhan dan keamanan.

Kesenjangan Industri-Akademia dan Implikasinya

      Meskipun praktik industri secara universal melibatkan manusia dalam lingkaran keamanan, komunitas riset akademis sebagian besar telah mengejar lintasan yang berbeda. Agenda penelitian yang dominan menargetkan pertahanan otomatis sepenuhnya, dengan asumsi implisit bahwa model yang cukup canggih pada akhirnya akan menghilangkan kebutuhan akan pengawasan manusia. Data yang dikumpulkan oleh penelitian UCLA ini menceritakan kisah yang berbeda.

      Di antara lima kategori mekanisme keamanan yang diidentifikasi, penjangkaran niat (intent anchoring)—kategori yang paling erat mewujudkan cita-cita otomatis—memiliki tingkat adopsi produksi nol dari 21 sistem. Sementara itu, kategori yang berpusat pada manusia seperti spesifikasi kebijakan, persetujuan saat runtime, dan konfigurasi cakupan masing-masing digunakan oleh setidaknya 14 dari 21 sistem, mewakili sebagian besar infrastruktur keamanan di dunia nyata.

      Namun, kondisi partisipasi manusia saat ini masih jauh dari memuaskan. Pengguna sering mengalami "kelelahan persetujuan" (approval fatigue) ketika dihadapkan pada dialog konfirmasi berulang. Batasan cakupan yang dikonfigurasi sekali pada awal sesi gagal beradaptasi dengan tugas yang berkembang. Bahasa kebijakan tetap tidak dapat diakses oleh pengguna non-ahli. Masalahnya bukan kurangnya keterlibatan manusia, melainkan keterlibatan saat ini yang dirancang dengan buruk, kurang diteliti, dan tidak memiliki dasar teoritis. Kesenjangan antara penyebaran industri dan fokus penelitian akademis ini merupakan peluang yang terlewatkan bagi para peneliti dan risiko bagi para praktisi yang tidak memiliki panduan desain berbasis bukti. ARSA Technology, sebagai penyedia solusi AI & IoT yang telah berpengalaman sejak 2018, memahami pentingnya menjembatani riset canggih dengan realitas operasional.

Agenda Penelitian Masa Depan untuk Keamanan AHI

      Mengingat kesenjangan ini, penelitian UCLA mengusulkan agenda riset tiga arah dan menyerukan agar keamanan AHI diakui sebagai "warga riset kelas satu" dalam komunitas keamanan dan AI. Agenda ini menuntut prinsip desain, metode evaluasi, dan dasar teoretisnya sendiri:

      1. Pemodelan Kognitif Keputusan Keamanan Pengguna: Memahami bagaimana pengguna mengambil keputusan keamanan saat berinteraksi dengan agen LLM. Ini termasuk studi tentang beban kognitif, kelelahan, dan faktor-faktor yang memengaruhi kepercayaan dan keputusan persetujuan.

      2. Desain Interaksi Adaptif yang Mengkalibrasi Keterlibatan Manusia dengan Risiko: Mengembangkan antarmuka dan alur kerja yang secara dinamis menyesuaikan tingkat keterlibatan manusia berdasarkan tingkat risiko tindakan agen. Ini mungkin berarti intervensi yang lebih sering untuk tindakan berisiko tinggi dan otomatisasi yang lebih besar untuk tugas berisiko rendah.

      3. Arsitektur Hibrida yang Menggabungkan Pra-filter Otomatis dengan Penilaian Manusia yang Ditargetkan: Mendesain sistem yang memanfaatkan kekuatan LLM untuk menyaring tindakan yang jelas aman atau tidak aman, sementara secara cerdas mengidentifikasi situasi di mana penilaian manusia sangat diperlukan. Pendekatan ini dapat meminimalkan kelelahan persetujuan sambil mempertahankan tingkat keamanan yang tinggi.

      Pendekatan ini akan mengoptimalkan kolaborasi antara agen LLM dan manusia, mengurangi beban pada pengguna sekaligus memastikan tindakan agen tetap selaras dengan niat dan toleransi risiko. Ini adalah area di mana perusahaan seperti ARSA, yang menyediakan solusi AI khusus untuk berbagai industri, dapat berinovasi lebih lanjut dengan menerapkan prinsip-prinsip desain yang berpusat pada manusia dalam pengembangan produk mereka.

Kesimpulan

      Keamanan agen LLM adalah masalah yang kompleks dan multidimensional, yang secara fundamental terkait dengan interaksi antara agen dan manusia. Pengakuan atas sifat AHI ini sangat penting untuk pengembangan sistem agen yang aman, andal, dan efektif. Dengan menjembatani kesenjangan antara riset akademis dan praktik industri, serta memfokuskan upaya pada desain interaksi yang cerdas dan arsitektur hibrida, kita dapat membangun masa depan di mana agen LLM dapat beroperasi dengan aman dan selaras dengan tujuan manusia.

      Apakah organisasi Anda siap untuk mengeksplorasi solusi AI yang mengintegrasikan keamanan dan fungsionalitas melalui interaksi agen-manusia yang optimal? Jelajahi berbagai solusi kami dan hubungi tim ARSA untuk konsultasi gratis.

      ---

      **Sumber Asli:** Wang, P., Li, Y., & Tian, Y. (2026). Reframing LLM Agent Security as an Agent–Human Interaction Problem. arXiv preprint arXiv:2605.24309.