Skrining Retinal

Revolusi Diagnostik Mata: Perbandingan Model AI Terkini untuk Skrining Retinal Multi-Penyakit

Pelajari perbandingan model AI mutakhir (CNN, Transformer, Hibrida, VLM) untuk skrining retinal multi-penyakit yang akurat. Temukan implikasi praktis bagi diagnostik mata dan efisiensi layanan kesehatan.

ARSA Technology Team

27 May 2026 • 5 min read

Revolusi Diagnostik Mata: Perbandingan Model AI Terkini untuk Skrining Retinal Multi-Penyakit

Penyakit mata adalah salah satu penyebab utama gangguan penglihatan global, mempengaruhi miliaran individu di seluruh dunia. Organisasi Kesehatan Dunia (WHO) melaporkan bahwa setidaknya 2,2 miliar orang mengalami gangguan penglihatan, dan sekitar 1 miliar di antaranya sebenarnya dapat dicegah atau belum tertangani. Penyakit retina seperti retinopati diabetik, glaukoma, dan degenerasi makula terkait usia menjadi penyebab utama kebutaan. Dampak ekonomi dari kondisi ini sangat besar, dengan perkiraan kerugian produktivitas tahunan mencapai US$411 miliar. Skrining rutin, terutama untuk retinopati diabetik, sangat direkomendasikan karena telah terbukti efektif dalam mendeteksi komplikasi yang mengancam penglihatan sejak dini, bahkan di berbagai sistem layanan kesehatan.

Program skrining retinopati berbasis telemedisin telah menunjukkan efektivitas biaya yang signifikan. Namun, program-program ini masih sangat bergantung pada penilaian manual oleh spesialis, yang dapat menimbulkan hambatan seiring dengan meningkatnya jumlah pasien. Integrasi sistem kecerdasan buatan (AI) untuk skrining otomatis gambar retina menjadi langkah penting berikutnya. Hal ini bertujuan untuk mengurangi beban kerja klinisi, meningkatkan efisiensi, serta lebih jauh meningkatkan skalabilitas dan efektivitas biaya layanan skrining, sebagaimana disorot dalam studi Durjoy Dey et al. (2026) di ICMHI Conference Proceedings [1].

Tantangan dalam Skrining Retinal Multi-Penyakit

Meskipun teknologi deep learning modern menawarkan alat yang sangat canggih untuk skrining retina otomatis, masih ada ketidakjelasan mengenai bagaimana keluarga model visual yang berbeda dapat dibandingkan dalam pengaturan multi-penyakit yang realistis dan dalam kondisi pergeseran domain (domain shift). Pergeseran domain mengacu pada skenario di mana model AI yang dilatih dengan satu jenis data (misalnya, gambar dari kamera tertentu atau populasi pasien tertentu) mungkin tidak berkinerja sebaik saat diterapkan pada data yang sedikit berbeda. Memahami perbandingan ini sangat penting untuk memilih model AI yang paling tepat dan dapat diandalkan untuk implementasi klinis.

Sistem skrining retina yang ada, yang sebagian besar mengandalkan jaringan saraf konvolusional (CNN), telah menunjukkan kinerja yang kuat dalam mendeteksi penyakit retina tunggal seperti retinopati diabetik. Namun, skrining di dunia nyata seringkali melibatkan identifikasi berbagai penyakit mata secara bersamaan. Kemampuan untuk mendeteksi berbagai patologi dari satu gambar retina memerlukan model AI yang tidak hanya akurat tetapi juga dapat menangani kompleksitas multi-label classification. Integrasi AI yang komprehensif, seperti solusi AI Video Analytics yang dikembangkan oleh ARSA Technology, menunjukkan potensi untuk aplikasi yang serupa dalam menganalisis data visual yang kompleks, meskipun dalam konteks industri yang berbeda.

Metodologi Penelitian: Membandingkan Empat Keluarga Model AI

Sebuah studi penting oleh Dey et al. (2026) melakukan benchmarking terhadap dua belas arsitektur AI dari empat keluarga model utama:

Convolutional Neural Networks (CNNs): Model tradisional yang unggul dalam mengidentifikasi pola lokal dan hierarkis dalam gambar, seperti tepi dan bentuk, dengan memproses bagian-bagian kecil gambar secara berurutan.
Vision Transformers (ViTs): Arsitektur berbasis mekanisme perhatian diri (self-attention) yang mampu menangkap konteks global dari sebuah gambar, memahami hubungan antara berbagai bagian gambar secara holistik.
Hybrid CNN–Transformer Backbones: Menggabungkan keunggulan CNN (deteksi fitur lokal) dan ViT (pemahaman konteks global) untuk kinerja yang lebih optimal.
Vision–Language Models (VLMs): Model seperti CLIP dan SigLIP yang dilatih menggunakan pasangan gambar-teks, memungkinkan mereka untuk memahami konten visual dalam kaitannya dengan deskripsi tekstual, dan berpotensi mentransfer pengetahuan dari data pra-pelatihan yang luas.

Penelitian ini menggunakan Retinal Fundus Multi-disease Image Dataset (RFMiD), sebuah dataset fundus multi-label dengan 28 kelas penyakit yang berbeda. Dua tugas utama dievaluasi:

1. Binary Screening Task: Menentukan apakah sebuah gambar mengandung penyakit retina apa pun (ya/tidak).

2. Multi-label Classification Task: Memprediksi spektrum penuh patologi RFMiD yang ada di setiap gambar.

Dengan konfigurasi pelatihan standar khusus keluarga model dan protokol kalibrasi serta evaluasi terpadu, metrik kinerja yang dilaporkan meliputi AUC (Area Under the Receiver Operating Characteristic Curve), F1 Score, presisi, recall (sensitivitas), dan spesifisitas pada titik operasi yang relevan secara klinis dengan spesifisitas mendekati 80%. Validasi eksternal juga dilakukan pada dataset Messidor-2 untuk retinopati diabetik (DR) yang dapat dirujuk, menunjukkan komitmen terhadap aplikasi dunia nyata. Studi ini merupakan yang pertama kali melakukan benchmarking komprehensif semacam ini pada RFMiD dengan validasi eksternal [1].

Temuan Kunci: Performa Model di Berbagai Tugas

Hasil penelitian menunjukkan bahwa pada tugas skrining biner, semua arsitektur AI menunjukkan kinerja yang baik, dengan nilai AUC di atas 84%. Namun, model berbasis perhatian (attention-based models) mendominasi, terutama pada tugas klasifikasi multi-label yang lebih menantang. Model seperti SwinTiny dan arsitektur hibrida CoAtNet0 serta MaxViTTiny mencapai AUC dan F1 Score tertinggi, secara signifikan meningkatkan macro dan micro F1 pada pengaturan multi-label. Hal ini menunjukkan bahwa kemampuan untuk memahami konteks global dan hubungan antar-fitur dalam gambar retina sangat krusial untuk deteksi multi-penyakit yang kompleks.

Model vision–language (CLIP ViT-B/16 dan SigLIP-Base384) menunjukkan kinerja yang kompetitif dibandingkan dengan baseline CNN, namun belum mampu melampaui model Transformer dan hibrida terbaik. Ini mengindikasikan bahwa sementara VLMs memiliki potensi transfer pengetahuan yang besar dari pra-pelatihan skala besar, mungkin ada bias induktif tertentu pada Transformer murni dan hibrida yang lebih sesuai untuk tugas analisis gambar medis retina secara spesifik. Dalam validasi eksternal pada Messidor-2 untuk retinopati diabetik yang dapat dirujuk, model hibrida dan Transformer kembali menunjukkan kinerja terkuat. Model SigLIP-Base384 bahkan menunjukkan trade-off presisi-recall yang sangat menguntungkan untuk deteksi retinopati diabetik yang dapat dirujuk, menyoroti kemampuannya dalam skenario di mana menghindari false positives dan false negatives sama pentingnya.

Implikasi Praktis dan Arah Masa Depan

Studi ini memberikan referensi yang dapat direproduksi untuk pemilihan model AI dalam skrining retina multi-penyakit dan menjadi panduan penting bagi pengembangan alat skrining otomatis di masa depan untuk implementasi klinis. Dengan akurasi yang tinggi dan kemampuan deteksi multi-penyakit, sistem AI ini dapat secara drastis mengurangi beban kerja spesialis mata, memungkinkan mereka untuk fokus pada kasus yang lebih kompleks. Hal ini tidak hanya meningkatkan efisiensi operasional tetapi juga memperluas akses ke layanan skrining di daerah-daerah dengan sumber daya terbatas, di mana spesialis mata mungkin sulit dijangkau.

Bagi perusahaan dan institusi kesehatan, penerapan AI seperti ini menawarkan manfaat signifikan dalam hal efisiensi biaya, pengurangan risiko kesalahan diagnostik, dan peningkatan produktivitas. Misalnya, ARSA Technology dengan AI Box Series, dapat menyediakan sistem AI Edge yang mampu memproses data secara lokal, sangat relevan untuk menjaga privasi data pasien yang sensitif dan memastikan kinerja real-time di lingkungan klinis. Model AI yang terbukti handal dalam skrining multi-penyakit juga dapat diintegrasikan ke dalam solusi kesehatan digital yang lebih luas, seperti Self-Check Health Kiosk, untuk skrining awal dan deteksi dini kondisi kesehatan. Kemampuan untuk menyaring berbagai penyakit dengan satu sistem AI juga meningkatkan kepatuhan terhadap protokol kesehatan dan mendukung perencanaan kesehatan masyarakat yang lebih baik.

Sumber:

[1] Dey, D., Ajbar, A., & Yan, Y. (2026). Benchmarking Convolutional, Transformer, Hybrid, and Vision Language Models for Multi Disease Retinal Screening. Accepted at ICMHI 2026, 10th International Conference on Medical and Health Informatics, Kyoto, Japan. To appear in ACM Conference Proceedings. https://arxiv.org/abs/2605.26283

Apakah Anda tertarik untuk mengeksplorasi bagaimana solusi AI dan IoT dapat merevolusi operasi bisnis dan layanan kesehatan Anda? Jangan ragu untuk menghubungi tim ARSA untuk konsultasi gratis dan mendiskusikan kebutuhan spesifik Anda.