Data berlabel seringkali menjadi tulang punggung model Kecerdasan Buatan (AI), namun proses pelabelan bisa mahal dan rentan terhadap kesalahan. Dalam konteks data grafik, di mana node (titik) dan edge (garis penghubung) merepresentasikan entitas dan hubungannya (misalnya, orang dalam jaringan sosial, transaksi keuangan, komponen industri), label yang tidak akurat pada node (disebut “label noise”) dapat menyebar melalui struktur grafik, merusak performa model secara signifikan.

      Graph Neural Networks (GNNs) adalah jenis model AI yang sangat efektif untuk menganalisis data grafik. Namun, GNN sangat sensitif terhadap label noise karena mekanisme ‘message passing’ atau penyebaran informasi antar node. Label yang salah pada satu node dapat “menginfeksi” node di sekitarnya, mengurangi akurasi klasifikasi pada seluruh grafik.

Tantangan Label Noise pada Data Grafik

      Dalam banyak aplikasi dunia nyata, seperti deteksi penipuan, analisis jaringan sosial, atau bahkan dalam pemantauan sistem kompleks, data grafik seringkali memiliki label yang tidak sempurna. Misalnya, dalam data transaksi keuangan, label “penipuan” atau “bukan penipuan” bisa saja salah. Dalam data medis berbasis grafik (misalnya, hubungan antar pasien atau gen), diagnosis awal bisa saja keliru.

      Memperoleh data grafik yang sepenuhnya bersih dan berlabel akurat dari para ahli domain sangat mahal dan memakan waktu. Namun, seringkali tersedia dataset yang lebih besar namun rentan noise (misalnya dari crowdsourcing) dan sejumlah kecil data yang dijamin bersih. Tantangannya adalah bagaimana memanfaatkan kedua jenis data ini secara efektif untuk membangun model GNN yang robust terhadap label noise.

Memperkenalkan DeGLIF: Denoising dengan Leave-One-Out Influence Function

      Sebuah penelitian terbaru dari Indian Institute of Technology Bombay mengusulkan metode inovatif bernama DeGLIF (Denoising Graph Data using Leave-One-Out Influence Function) untuk mengatasi masalah label noise pada data grafik. Metode ini memanfaatkan sebagian kecil data berlabel bersih (clean data) yang tersedia untuk membantu membersihkan dataset yang lebih besar dan rentan noise (noisy data).

      Inti dari DeGLIF adalah penggunaan konsep “leave-one-out influence function”. Secara sederhana, fungsi pengaruh ini mengestimasi seberapa besar perubahan pada model GNN (khususnya pada loss atau kerugian model saat membuat prediksi) jika satu node pelatihan dihapus dari dataset. Jika menghapus node tertentu dari data pelatihan ternyata meningkatkan akurasi prediksi model pada data bersih yang kecil, maka ada kemungkinan besar node yang dihapus tersebut memiliki label yang salah atau merupakan data anomali.

Bagaimana DeGLIF Bekerja?

      DeGLIF tidak memerlukan informasi awal tentang tingkat atau jenis noise dalam dataset. Prosesnya kira-kira berjalan seperti ini:

      1. Model GNN dilatih menggunakan dataset grafik yang berpotensi mengandung label noise.

      2. Menggunakan konsep leave-one-out influence function yang disesuaikan untuk data grafik (mempertimbangkan dampak penghapusan node pada edge dan representasi node lain), DeGLIF mengestimasi dampak penghapusan setiap node pelatihan terhadap performa model pada data bersih yang kecil.

      3. Node-node pelatihan yang penghapusannya diperkirakan paling meningkatkan performa pada data bersih diidentifikasi sebagai kandidat node yang bising (noisy nodes).

      4. Sebuah fungsi relabeling yang dirancang khusus kemudian digunakan untuk memutuskan apakah label node kandidat tersebut perlu diubah, berdasarkan estimasi pengaruh dan informasi lainnya.

      Proses ini jauh lebih efisien secara komputasi dibandingkan harus melatih ulang model GNN setiap kali satu node dihapus, yang akan sangat memakan waktu untuk grafik berukuran besar.

Dampak dan Signifikansi untuk Industri

      Kemampuan untuk melatih model GNN yang robust terhadap label noise memiliki dampak signifikan di berbagai sektor industri di Indonesia yang menggunakan data grafik:

  • Keamanan Siber & Deteksi Penipuan: Menganalisis grafik interaksi (misalnya, transaksi, koneksi email) untuk mendeteksi aktivitas penipuan. Label noise (transaksi penipuan yang salah dilabeli normal, atau sebaliknya) bisa fatal. DeGLIF dapat membantu membersihkan data pelatihan.
  • Analisis Jaringan: Memahami hubungan antar entitas (pelanggan, produk, lokasi) untuk rekomendasi, segmentasi pasar, atau optimasi logistik. Label node yang tidak akurat (misalnya, kategori pelanggan yang salah) dapat mengarah pada keputusan bisnis yang buruk.
  • Manufaktur & Industri Berat: Memantau jaringan sensor atau hubungan antar komponen mesin. Jika data sensor (node) memiliki label status yang salah, analisis prediktif bisa terganggu. Solusi monitoring alat berat dan otomasi industri berbasis IoT sangat membutuhkan data yang akurat.
  • Kesehatan: Menganalisis grafik interaksi pasien, data rekam medis, atau struktur biomolekuler. Label noise (misalnya, diagnosis yang salah) adalah masalah serius. Teknologi seperti teknologi kesehatan mandiri yang mengumpulkan data vital perlu sistem backend yang robust.

      DeGLIF menawarkan cara yang lebih praktis dan efisien untuk meningkatkan akurasi model GNN di dunia nyata, di mana data sempurna jarang ada. Ini memungkinkan perusahaan memanfaatkan data yang lebih besar dan lebih mudah didapat (meskipun bising) tanpa mengorbankan performa model secara drastis.

Bagaimana ARSA Technology Dapat Membantu?

      Sebagai perusahaan teknologi AI dan IoT terkemuka di Indonesia yang berpengalaman sejak 2018, ARSA Technology memahami pentingnya data yang akurat dan model AI yang robust untuk kesuksesan transformasi digital. Meskipun DeGLIF adalah penelitian spesifik dari IIT Bombay, metodologi di baliknya – yaitu menggunakan teknik AI canggih untuk mengatasi tantangan data dunia nyata dan meningkatkan keandalan sistem – sangat selaras dengan pendekatan ARSA.

      ARSA Technology mengembangkan solusi berbasis analitik video AI, IoT, dan sistem cerdas lainnya yang beroperasi dengan data dari lingkungan nyata yang seringkali tidak sempurna. Kami terus berinvestasi dalam R&D untuk memastikan solusi kami mampu:

  • Menangani variabilitas dan noise dalam data (visual, sensor, dll.).
  • Memberikan akurasi tinggi dalam klasifikasi dan deteksi, bahkan dalam kondisi menantang.
  • Mengintegrasikan data dari berbagai sumber untuk analisis yang komprehensif.

      Pendekatan DeGLIF dalam mengidentifikasi dan mengoreksi data bising adalah contoh bagaimana riset mutakhir dalam AI dapat diterjemahkan menjadi solusi praktis untuk meningkatkan keandalan sistem. ARSA Technology memiliki tim ahli yang dapat membantu bisnis Anda mengevaluasi tantangan data spesifik Anda dan merancang serta mengimplementasikan solusi AI dan IoT yang kokoh dan efektif.

Kesimpulan

      Label noise merupakan tantangan signifikan bagi model GNN yang menganalisis data grafik, berpotensi merusak akurasi klasifikasi node secara luas. Metode DeGLIF dari IIT Bombay menawarkan pendekatan baru dan efisien untuk mengatasi masalah ini dengan memanfaatkan data bersih yang terbatas dan konsep leave-one-out influence function untuk mengidentifikasi dan mengoreksi node yang salah label. Inovasi semacam ini sangat krusial bagi bisnis di Indonesia yang mengandalkan analitik data canggih untuk pengambilan keputusan. Memastikan data yang akurat dan model AI yang robust adalah kunci untuk mencapai efisiensi operasional, keamanan yang lebih baik, dan keunggulan kompetitif.

      Konsultasikan kebutuhan AI Anda dengan tim ARSA Technology.

HUBUNGI WHATSAPP