Deteksi PII

Mengamankan Data Sensitif: Alur Kerja Agentic AI untuk Deteksi PII dalam Narasi Kecelakaan

Pelajari alur kerja agentic AI inovatif ARSA Technology untuk deteksi PII dalam narasi kecelakaan, memastikan privasi data dan membuka wawasan keamanan lalu lintas.

ARSA Technology Team

20 Apr 2026 • 5 min read

Data Narasi Kecelakaan: Harta Karun yang Terkunci

Laporan kecelakaan adalah sumber data yang sangat penting untuk menganalisis dan meningkatkan keselamatan jalan raya. Laporan ini mengandung elemen terstruktur, seperti waktu dan lokasi, serta elemen tidak terstruktur yang tak kalah berharganya: narasi kecelakaan. Narasi ini merupakan deskripsi rinci insiden dari petugas pelapor, menawarkan konteks unik dan faktor penyebab yang seringkali tidak tersedia dalam data terstruktur. Akibatnya, ada minat yang meningkat untuk menggunakan narasi ini untuk analisis keselamatan yang lebih mendalam dan komprehensif, seperti yang telah ditunjukkan oleh berbagai penelitian (Ma et al., 2026).

Namun, pemanfaatan narasi kecelakaan secara luas sering terhambat oleh keberadaan Informasi Identitas Pribadi (PII). PII mencakup detail seperti nama, alamat rumah, nomor plat kendaraan, atau informasi lain yang dapat digunakan untuk mengidentifikasi individu secara langsung maupun tidak langsung. Keberadaan PII ini menimbulkan risiko privasi yang serius dan membatasi akses ke data penting ini, menjadikannya seringkali hanya dapat digunakan secara internal dengan ketersediaan eksternal yang terbatas.

Tantangan Deteksi PII dalam Data Sensitif

Mendeteksi PII dalam narasi kecelakaan adalah tugas yang sangat menantang karena beberapa alasan. PII muncul secara jarang dan tidak konsisten dalam teks bebas, membuat deteksi manual tidak dapat diskalakan dan rentan terhadap kesalahan manusia. Metode berbasis aturan, meskipun efektif untuk entitas yang sangat terstruktur seperti nomor telepon atau alamat email, seringkali tidak mampu menangani PII yang bergantung pada konteks. Misalnya, nama jalan umum mungkin tidak dianggap PII, tetapi nama jalan yang sama yang muncul bersama dengan nama individu atau deskripsi rumah tertentu bisa menjadi PII.

Dalam konteks narasi kecelakaan, tantangan ini semakin diperparah. Banyak string yang menyerupai PII di domain lain (misalnya, nama jalan, pengenal jalan raya, nomor kasus) belum tentu sensitif berdasarkan aturan privasi transportasi. Ini menjadikan deteksi PII dalam narasi kecelakaan sebagai masalah spesifik domain yang tidak dapat diselesaikan hanya dengan transfer langsung dari metode identifikasi umum. Kebutuhan akan solusi otomatis yang canggih, terukur, dan sadar privasi menjadi sangat mendesak.

Memperkenalkan Alur Kerja Agentic: Solusi Inovatif untuk Privasi Data

Mengatasi kompleksitas ini, penelitian terbaru telah mengembangkan dan mengevaluasi alur kerja agentic yang dapat diterapkan secara lokal untuk deteksi PII dalam narasi kecelakaan, dengan memanfaatkan kekuatan model bahasa besar (LLM). Alur kerja ini dirancang untuk beroperasi secara mandiri, dengan "agen" cerdas yang bekerja sama untuk mengidentifikasi dan memverifikasi PII secara akurat. Fokus utamanya adalah privasi, memungkinkan pemrosesan data sensitif tetap berada dalam infrastruktur institusional, tanpa ketergantungan pada API eksternal yang mungkin berisiko.

Solusi ini merupakan pengembangan dari studi sebelumnya yang menunjukkan bahwa tidak ada satu metode ekstraksi pun yang unggul di semua jenis PII. Oleh karena itu, diperlukan kerangka kerja hibrida yang menggabungkan kekuatan berbagai metode untuk deteksi PII yang tangguh dan akurat. Pendekatan ini secara signifikan meningkatkan kinerja untuk PII yang bergantung pada konteks, sementara metode berbasis aturan tetap kuat untuk kategori yang terstruktur.

Komponen Kunci Alur Kerja Agentic

Alur kerja agentic ini terdiri dari dua komponen utama: Pengekstrak Hibrida (Hybrid Extractor) dan Verifikator (Verifier). Setiap komponen memainkan peran penting dalam memastikan deteksi PII yang akurat dan dapat diandalkan:

Pengekstrak Hibrida (Hybrid Extractor): Komponen ini dirancang untuk mendeteksi berbagai jenis PII dengan presisi tinggi.
Untuk PII Terstruktur: Ia mengarahkan PII terstruktur, seperti nomor telepon dan alamat email, ke model berbasis aturan yang telah terbukti efisien. Pendekatan ini memanfaatkan pola yang jelas untuk identifikasi yang cepat dan akurat.
Untuk PII yang Bergantung Konteks: Untuk PII yang lebih ambigu dan bergantung pada konteks, seperti nama, alamat rumah, dan pengidentifikasi alfanumerik, Pengekstrak Hibrida menggunakan Model Bahasa Besar (LLM) yang telah disesuaikan dengan domain dan disempurnakan. Penyesuaian domain ini memungkinkan LLM untuk memahami nuansa spesifik dalam narasi kecelakaan yang mungkin terlewatkan oleh model umum. Untuk meningkatkan kinerja lebih lanjut pada PII yang paling ambigu, digunakan ekstraksi LLM ensemble, yang mengumpulkan kandidat dari beberapa proses LLM.

Verifikator (Verifier): Setelah Pengekstrak Hibrida mengidentifikasi PII potensial, Verifikator masuk untuk menyaring deteksi yang salah. Verifikator menggunakan LLM lokal yang direkayasa dengan prompt* khusus untuk memvalidasi hasil deteksi. Ini membantu mencegah deteksi berlebihan (mengklasifikasikan informasi non-PII sebagai PII) dan deteksi kurang (melewatkan PII yang sebenarnya), dengan menerapkan penalaran berbasis bukti untuk mengonfirmasi keabsahan setiap deteksi.

Semua komponen alur kerja ini dirancang untuk diterapkan secara lokal, memastikan kepatuhan privasi data. Ini sangat penting untuk lingkungan operasional yang sensitif privasi, seperti lembaga pemerintah atau perusahaan besar, di mana pemrosesan data narasi dalam skala besar harus tetap berada dalam infrastruktur internal institusi. Solusi seperti ARSA AI Box Series atau AI Video Analytics yang memungkinkan pemrosesan di edge atau on-premise adalah contoh bagaimana teknologi ini dapat diintegrasikan untuk menjaga kontrol penuh atas data.

Penerapan di Dunia Nyata dan Dampak yang Terukur

Alur kerja agentic ini telah dievaluasi pada dataset narasi kecelakaan di dunia nyata dan menunjukkan kinerja yang sangat kuat. Ia mencapai presisi 0,82, recall 0,94, nilai F1 0,87, dan akurasi 0,96, mengungguli beberapa metode baseline yang ada. Hasil ini menegaskan efektivitas pendekatan hibrida dan verifikasi agentic dalam menangani kompleksitas deteksi PII. Studi juga menunjukkan bahwa ekstraksi LLM ensemble dan Verifikator secara spesifik meningkatkan deteksi untuk alamat rumah dan pengidentifikasi alfanumerik, kategori-kategori yang secara historis paling sulit.

Dampak praktis dari inovasi ini sangat signifikan. Dengan kemampuan untuk memproses data narasi kecelakaan secara terukur dan menjaga privasi, lebih banyak data penting dapat diakses untuk penelitian dan intervensi keselamatan. Ini membuka jalan bagi analisis yang lebih dalam tentang faktor-faktor penyebab kecelakaan, pengembangan tindakan pencegahan yang lebih efektif, dan peningkatan keselamatan jalan raya secara keseluruhan, sambil secara bersamaan melindungi privasi individu. Organisasi yang telah berpengalaman sejak 2018 dalam solusi AI dan IoT dapat memanfaatkan pendekatan ini untuk transformasi digital yang bertanggung jawab.

Implikasi yang Lebih Luas untuk Keamanan Data dan Analisis Cerdas

Alur kerja agentic untuk deteksi PII ini menawarkan cetak biru yang tangguh untuk memproses data sensitif di luar domain narasi kecelakaan. Ini menunjukkan bagaimana Model Bahasa Besar dan kecerdasan buatan dapat digunakan untuk mengotomatisasi perlindungan data di berbagai sektor, termasuk perawatan kesehatan, keuangan, atau layanan publik, di mana data tidak terstruktur seringkali mengandung PII yang harus dilindungi.

Dengan demikian, solusi ini tidak hanya memecahkan masalah spesifik dalam analisis keselamatan lalu lintas tetapi juga memberikan landasan bagi praktik keamanan data yang lebih luas. Kemampuan untuk menyebarkan sistem secara lokal juga menekankan komitmen terhadap kedaulatan data dan kepatuhan terhadap peraturan privasi yang semakin ketat di seluruh dunia. Ini adalah langkah maju yang krusial dalam menyeimbangkan kebutuhan akan wawasan data dengan mandat etis dan hukum untuk melindungi informasi pribadi.

Untuk informasi lebih lanjut mengenai studi ini, Anda dapat merujuk ke sumber aslinya: An Agentic Workflow for Detecting Personally Identifiable Information in Crash Narratives.

Jika organisasi Anda menghadapi tantangan dalam mengelola data sensitif dan membutuhkan solusi AI yang andal untuk deteksi PII, jangan ragu untuk menghubungi tim ARSA untuk konsultasi gratis dan mendiskusikan bagaimana teknologi ini dapat disesuaikan dengan kebutuhan Anda.