MLLM

Revolusi Pengenalan Wajah: Mengevaluasi MLLM untuk Tantangan Multimodal

Pelajari evaluasi Multimodal Large Language Models (MLLM) untuk pengenalan wajah heterogen (HFR) di berbagai modalitas sensor. Temukan batasan dan potensi AI untuk keamanan biometrik.

ARSA Technology Team

24 Jan 2026 • 5 min read

Pengenalan wajah telah menjadi teknologi krusial dalam keamanan dan otentikasi digital selama satu dekade terakhir. Didorong oleh kemajuan pesat dalam model deep learning seperti Convolutional Neural Networks (CNN) dan transformer, sistem ini kini sangat andal dalam kondisi homogen. Namun, bagaimana jika tantangan berubah dan kita harus mengenali wajah dari kamera yang berbeda jenis? Di sinilah konsep Pengenalan Wajah Heterogen (HFR) menjadi sangat penting.

HFR mengacu pada skenario di mana gambar pendaftaran (misalnya, foto KTP) dan gambar probe (gambar yang akan diverifikasi) berasal dari modalitas penginderaan yang berbeda. Contohnya termasuk membandingkan foto visual (RGB) dengan gambar inframerah dekat (NIR), inframerah gelombang pendek (SWIR), atau bahkan termal. Aplikasi semacam ini sangat vital dalam pengawasan perbatasan, lingkungan minim cahaya, atau situasi darurat di mana data wajah visual mungkin tidak tersedia atau tidak ideal. Tantangan utamanya adalah "kesenjangan domain" – perbedaan signifikan dalam penampilan wajah yang ditangkap oleh sensor yang berbeda.

Munculnya Multimodal Large Language Models (MLLM)

Dalam beberapa tahun terakhir, Multimodal Large Language Models (MLLM) telah menarik perhatian luas. Ini adalah jenis model foundation yang dirancang untuk memproses dan memahami berbagai jenis masukan secara bersamaan, seperti gambar dan teks. Kemampuan luar biasa ini memungkinkan MLLM untuk melakukan tugas-tugas kompleks seperti memberi keterangan pada gambar, menjawab pertanyaan visual, dan bahkan melakukan penalaran multimodal dalam skenario zero-shot atau few-shot.

Dengan performa yang mengesankan ini, timbul pertanyaan apakah MLLM dapat langsung diterapkan pada tugas-tugas vision tertentu, seperti pengenalan wajah, dan berpotensi menawarkan kerangka kerja terpadu untuk persepsi dan penalaran. Namun, pengenalan wajah, terutama dalam pengaturan heterogen, secara fundamental berbeda dari banyak tugas vision-language umum. Pengenalan biometrik membutuhkan diskriminasi identitas yang sangat halus, ketahanan terhadap variasi sensor, dan kepatuhan terhadap protokol evaluasi yang ketat.

Evaluasi MLLM untuk Pengenalan Wajah Heterogen

Sebuah studi terbaru yang berjudul "Evaluating Multimodal Large Language Models for Heterogeneous Face Recognition" (https://arxiv.org/abs/2601.15406) melakukan evaluasi sistematis terhadap MLLM state-of-the-art untuk Pengenalan Wajah Heterogen (HFR). Penelitian ini secara khusus menguji beberapa MLLM open-source dalam skenario lintas-modalitas yang beragam, termasuk pengenalan wajah VIS-NIR, VIS-SWIR, dan VIS-THERMAL.

Metrik kinerja pengenalan dievaluasi menggunakan protokol biometrik standar, termasuk Acquire Rate, Equal Error Rate (EER), dan True Accept Rate (TAR). Studi ini bertujuan untuk memahami seberapa baik MLLM dapat menggeneralisasi di berbagai modalitas penginderaan dan membandingkan kinerja mereka dengan sistem pengenalan wajah yang sudah mapan. Hingga saat ini, studi ini merupakan evaluasi pertama yang diketahui tentang MLLM untuk HFR.

Kesenjangan Kinerja yang Signifikan

Hasil penelitian mengungkapkan bahwa meskipun MLLM menunjukkan kemampuan penalaran multimodal yang kuat, mereka saat ini belum mampu menyamai kinerja model pengenalan wajah khusus dalam pengaturan heterogen. Penurunan kinerja ini sangat jelas dalam skenario lintas-spektral yang menantang. Hal ini menggarisbawahi adanya kesenjangan antara kemampuan pemahaman multimodal tujuan umum dan pengenalan identitas biometrik yang sangat spesifik.

Temuan ini menyoroti batasan MLLM saat ini untuk perubahan domain, seperti dalam HFR, dan menguraikan pertimbangan penting untuk penelitian di masa depan pada persimpangan model foundation dan pengenalan biometrik. Meskipun MLLM telah dilatih pada sejumlah besar data, sebagian besar data gambar yang tersedia adalah gambar visual (RGB), yang mungkin menjadi faktor penyebab tantangan ini.

Mengapa HFR Begitu Menantang?

Tantangan utama dalam HFR adalah "kesenjangan domain", yaitu perbedaan signifikan dalam penampilan antara gambar yang diambil dengan sensor yang berbeda. Perbedaan ini menyulitkan pencocokan wajah secara akurat dan mengurangi kinerja pengenalan. Untuk mengatasi ini, beberapa pendekatan tradisional telah dikembangkan:

Metode Proyeksi Ruang Bersama (Common-space Projection): Tujuannya adalah mengurangi kesenjangan domain dengan mempelajari pemetaan yang memproyeksikan representasi wajah heterogen ke dalam subspace bersama. Metode awal menggunakan teknik linier seperti CCA dan PLS, sementara pendekatan deep learning* modern mengintegrasikan konsep ini ke dalam arsitektur CNN. Metode Berbasis Fitur Invarian (Invariant Feature-based): Fokusnya adalah mengekstraksi representasi yang agnostik terhadap modalitas dan tetap stabil di berbagai kondisi penginderaan heterogen. Pendekatan awal menekankan deskriptor* buatan tangan seperti DoG dan LBP. Baru-baru ini, pendekatan berbasis CNN telah muncul untuk mempelajari representasi wajah invarian langsung dari data, menunjukkan generalisasi yang lebih baik.

Metode Berbasis Sintesis (Synthesis-based): Pendekatan ini bertujuan untuk mengurangi kesenjangan modalitas dengan mengubah gambar dari domain target ke domain sumber (biasanya gambar spektrum visual), memungkinkan pengenalan dengan model pengenalan wajah konvensional. Kemajuan terbaru memanfaatkan kerangka kerja berbasis GAN untuk mensintesis wajah visual yang menjaga identitas dari modalitas heterogen, meningkatkan kinerja pengenalan secara signifikan. Namun, metode ini biasanya membutuhkan komputasi yang berat karena melibatkan tahap pembuatan gambar tambahan.

Sebagai contoh, kerangka kerja seperti xEdgeFace [10] memperkenalkan pendekatan HFR ringan yang menyesuaikan backbone pengenalan wajah CNN-Transformer yang telah dilatih sebelumnya ke pengaturan lintas-modal dengan memperbarui Layer Normalization dan lapisan awal secara selektif. Strategi ini secara efektif menyelaraskan modalitas heterogen sambil mempertahankan kinerja pengenalan RGB, mencapai hasil state-of-the-art dengan overhead komputasi yang sangat rendah.

Implikasi Bisnis dan Peran Solusi AI Modern

Temuan studi ini memiliki implikasi penting bagi perusahaan yang mempertimbangkan penggunaan MLLM dalam sistem biometrik. Meskipun MLLM menjanjikan untuk tugas-tugas pemahaman multimodal yang luas, mereka belum sepenuhnya siap untuk tuntutan presisi dan keandalan HFR, terutama di lingkungan industri atau keamanan yang kritis.

Untuk aplikasi yang membutuhkan pengenalan wajah yang tangguh di berbagai kondisi pencahayaan dan sensor, seperti pengawasan fasilitas, kontrol akses, atau keamanan perbatasan, sistem yang dirancang khusus untuk HFR atau solusi AI Box yang kuat dengan kemampuan edge AI masih menjadi pilihan terbaik. Solusi ini, seperti yang ditawarkan oleh penyedia teknologi AI Video Analytics, dapat mengubah infrastruktur CCTV yang ada menjadi sistem pemantauan cerdas yang secara aktif melindungi bisnis, mengoptimalkan operasi, dan meningkatkan keamanan dengan akurasi tinggi.

Meskipun MLLM terus berkembang, kehati-hatian dan evaluasi biometrik yang ketat sangat penting sebelum menerapkannya dalam sistem pengenalan wajah, terutama untuk aplikasi sensitif di berbagai industri. Di sinilah pentingnya bermitra dengan penyedia solusi AI & IoT yang berpengalaman dalam implementasi praktis dan memiliki pemahaman mendalam tentang tantangan dunia nyata.

Kesimpulan

Pengenalan Wajah Heterogen tetap menjadi bidang penelitian dan pengembangan yang vital, terutama dengan kemampuan MLLM yang terus berkembang. Meskipun MLLM telah menunjukkan kemajuan luar biasa dalam berbagai tugas vision-language, studi ini menegaskan bahwa mereka masih memiliki jalan panjang untuk menyamai kinerja sistem pengenalan wajah khusus dalam skenario lintas-modalitas yang kompleks. Ini menekankan pentingnya evaluasi yang cermat dan pengembangan yang berfokus pada biometrik untuk model AI tujuan umum jika ingin berhasil diterapkan dalam aplikasi keamanan tingkat lanjut.

Untuk memahami lebih lanjut bagaimana solusi AI Vision yang terbukti dapat meningkatkan keamanan dan efisiensi operasional Anda, kami mengundang Anda untuk menjelajahi penawaran ARSA Technology. Jadwalkan konsultasi gratis dengan tim kami untuk membahas kebutuhan spesifik Anda.

Sumber: Otroshi Shahreza, H., George, A., & Marcel, S. (2026). Evaluating Multimodal Large Language Models for Heterogeneous Face Recognition. arXiv preprint arXiv:2601.15406.