Dalam era transformasi digital, Artificial Intelligence (AI) visual menjadi tulang punggung berbagai sistem cerdas, mulai dari pengawasan keamanan hingga otomasi industri. Model AI canggih seperti Large Vision-Language Models (LVLMs) dirancang untuk memahami dan berinteraksi dengan dunia visual dengan cara yang semakin mirip manusia. Namun, ada satu tantangan signifikan yang masih dihadapi AI visual, yaitu kecenderungan untuk “berhalusinasi” – mendeteksi atau menjelaskan objek yang sebenarnya tidak ada dalam gambar.
Fenomena ini, meskipun terdengar seperti fiksi ilmiah, adalah masalah nyata yang dapat mengikis kepercayaan pada sistem AI dan menyebabkan kesalahan operasional yang merugikan bagi bisnis. Memahami akar penyebab halusinasi ini dan bagaimana mengatasinya sangat penting untuk membangun solusi AI yang benar-benar andal dan akurat di Indonesia.
Memahami “Halusinasi” pada AI Visual
Dalam konteks AI visual, “halusinasi” merujuk pada situasi di mana model AI menghasilkan deskripsi atau mendeteksi elemen visual yang tidak sesuai dengan input gambar yang diberikan. Misalnya, sistem analitik video AI pada kamera keamanan bisa saja melaporkan deteksi orang di area terlarang, padahal sebenarnya tidak ada siapa pun di sana. Atau, sistem deteksi cacat produk di lini manufaktur bisa mengidentifikasi goresan yang tidak ada.
Mengapa ini menjadi masalah serius bagi bisnis? Halusinasi dapat menyebabkan alarm palsu yang membuang waktu dan sumber daya, keputusan yang salah berdasarkan data yang tidak akurat, hingga kegagalan sistem dalam mendeteksi insiden yang sebenarnya terjadi karena tertutup oleh “noise” halusinasi. Ini menghambat efisiensi operasional dan menurunkan tingkat keamanan.
Untuk bisnis di berbagai sektor, mulai dari manufaktur di Jawa Timur hingga pengawasan di fasilitas publik di Jakarta, keandalan data dari sistem AI adalah kunci. Halusinasi menjadi hambatan utama dalam mencapai keandalan tersebut.
Mengapa AI Melihat Objek yang Tidak Ada? Teori di Balik Masalah
Penelitian terbaru yang mendalami LVLMs berbasis discrete image tokenizers (model yang mengubah gambar menjadi unit-unit diskrit seperti kata dalam teks) mengemukakan hipotesis menarik di balik fenomena halusinasi ini. Gambar diubah menjadi “token visual” yang merepresentasikan pola atau bagian gambar. Model dilatih untuk memahami hubungan antara token visual ini dan teks yang mendeskripsikannya.
Hipotesisnya adalah AI mengembangkan “prasangka visual” (visual priors) selama pelatihan. Jika token visual tertentu (misalnya, yang merepresentasikan “kaki meja”) sering muncul bersamaan dengan token lain (misalnya, yang merepresentasikan “permukaan meja”) dalam gambar-gambar yang diberi label “meja” dan “kursi”, maka kedua token tersebut menjadi sangat terkait. Ketika model melihat “permukaan meja” dalam gambar baru tetapi tidak melihat “kaki meja”, hubungan yang kuat itu mungkin secara keliru mengaktifkan asosiasi “kursi”, menyebabkan model “berhalusinasi” dan menyebutkan adanya kursi padahal tidak ada.
Ini terjadi karena model sangat pandai mengenali pola ko-okurensi (kemunculan bersama) dari token visual. Token yang sering muncul bersama dalam konteks visual serupa dapat memicu satu sama lain, bahkan ketika salah satunya tidak hadir dalam input gambar saat ini.
Pendekatan Inovatif: Mengidentifikasi dan Mengatasi Bias Visual
Penelitian yang dibahas ini menawarkan pendekatan dua langkah untuk mengatasi halusinasi yang disebabkan oleh bias visual ini: Context-Guided Clustering (CGC) dan Visual Token Decontamination (VTD).
CGC berfungsi seperti “membuat peta” hubungan antar token visual. Dengan menganalisis data gambar dalam jumlah besar, CGC membangun grafik yang menunjukkan seberapa sering token visual tertentu muncul bersama, baik secara spasial (berdekatan dalam gambar) maupun semantik (merepresentasikan objek yang sama). Menggunakan teknik AI canggih seperti Graph Neural Network (GNN), token-token yang sering berko-okurensi dikelompokkan.
Setelah kelompok token yang sering berko-okurensi ini teridentifikasi, VTD berperan untuk “membersihkan” bias selama proses AI menghasilkan respons (misalnya, deskripsi gambar). VTD mengamati token visual mana yang hadir dalam gambar input dan mengidentifikasi kelompok token yang paling dominan. Kemudian, VTD mencari token-token yang tidak hadir dalam gambar input tetapi termasuk dalam kelompok dominan tersebut dan memiliki korelasi tinggi dengan objek yang sering dihalusinasikan. Pengaruh dari token-token yang tidak hadir namun berpotensi memicu halusinasi ini kemudian dikurangi secara cerdas dalam representasi internal AI (latent space) sebelum menghasilkan output akhir.
Dampak Praktis untuk Bisnis di Indonesia
Penelitian ini menunjukkan bahwa dengan memahami dan memanipulasi bagaimana AI memproses token visual, kita bisa mengurangi kecenderungan halusinasi. Ini memiliki implikasi besar bagi pengembangan sistem AI visual yang lebih andal dan akurat untuk berbagai industri di Indonesia.
Dalam otomasi industri, deteksi cacat produk yang akurat sangat krusial. Sistem yang tidak berhalusinasi memastikan hanya produk cacat yang benar-benar teridentifikasi, mengurangi pemborosan dan menjaga kualitas. Untuk keamanan, sistem analitik video AI yang andal mengurangi alarm palsu, memungkinkan tim keamanan fokus pada ancaman nyata. Dalam sistem parkir cerdas, identifikasi kendaraan yang akurat (plat nomor, jenis kendaraan) tanpa halusinasi sangat penting untuk kontrol akses yang efisien dan aman. Bahkan dalam teknologi kesehatan mandiri, akurasi dalam analisis citra medis berbasis AI memerlukan mitigasi halusinasi untuk menghindari diagnosis yang salah.
Membangun AI yang dapat dipercaya berarti membangun AI yang tidak hanya “pintar”, tetapi juga jujur dalam interpretasinya terhadap data visual.
Bagaimana ARSA Technology Dapat Membantu?
ARSA Technology, sebagai perusahaan teknologi AI dan IoT terkemuka di Indonesia, memahami pentingnya keandalan dan akurasi dalam setiap solusi yang kami kembangkan. Dengan tim R&D internal yang berbasis di Yogyakarta dan kantor pusat di Surabaya, kami terus mengikuti perkembangan terbaru dalam penelitian AI, termasuk cara mengatasi tantangan kompleks seperti halusinasi visual.
Kami berpengalaman sejak 2018 dalam menerjemahkan konsep-konsep teknis canggih menjadi solusi praktis yang memberikan dampak nyata bagi bisnis di Indonesia. Solusi kami, seperti analitik video AI, sistem kendaraan & parkir cerdas, dan otomasi industri & monitoring, dibangun di atas fondasi teknologi AI yang dirancang untuk memberikan data yang akurat dan dapat ditindaklanjuti, meminimalkan kesalahan yang disebabkan oleh bias atau “halusinasi” AI.
Kami berkomitmen untuk menjadi mitra teknologi Anda dalam membangun sistem cerdas yang tidak hanya inovatif tetapi juga dapat Anda percayai sepenuhnya.
Kesimpulan
Halusinasi pada AI visual adalah tantangan yang perlu diatasi untuk mewujudkan potensi penuh teknologi ini dalam dunia bisnis. Penelitian yang mendalami akar masalah seperti bias visual dari ko-okurensi token menawarkan langkah maju dalam pengembangan AI yang lebih andal. Bagi bisnis di Indonesia, memilih mitra teknologi yang tidak hanya menguasai implementasi AI tetapi juga memahami dan berupaya memitigasi kelemahan bawaan AI adalah kunci untuk transformasi digital yang sukses dan aman.
ARSA Technology siap menjadi mitra Anda, menghadirkan solusi AI visual yang akurat, andal, dan relevan dengan kebutuhan spesifik industri Anda.
Konsultasikan kebutuhan AI Anda dengan tim ARSA Technology.






