AI dalam dunia visi komputer (computer vision) telah mencapai kemajuan luar biasa, memungkinkan mesin untuk “melihat” dan memahami dunia visual seperti manusia. Salah satu tugas fundamental dalam Vision AI adalah semantic segmentation, yaitu kemampuan AI untuk mengenali dan memisahkan objek-objek berbeda dalam sebuah gambar dengan akurat, hingga ke tingkat piksel. Bayangkan AI yang bisa menandai setiap mobil, pejalan kaki, atau bahkan jenis cacat tertentu pada produk dalam sebuah foto atau video.
Kemampuan ini sangat krusial untuk berbagai aplikasi industri, mulai dari mengotomatiskan inspeksi kualitas di manufaktur, menganalisis perilaku pelanggan di ritel, hingga mendeteksi anomali dalam gambar medis. Namun, agar AI dapat melakukan tugas semantic segmentation dengan efektif, ia memerlukan instruksi yang jelas. Di sinilah konsep prompt engineering masuk. Sama seperti kita memberikan instruksi kepada AI generatif seperti ChatGPT, kita juga perlu “memberi tahu” atau “menunjukkan” kepada Vision AI apa yang harus dicari. Ada dua pendekatan utama untuk memberikan instruksi ini: melalui teks (textual prompts) atau melalui contoh visual (visual prompts). Memahami kelebihan dan kekurangan keduanya sangat penting untuk mengoptimalkan kinerja Vision AI di dunia nyata.
Memberi Tahu AI dengan Teks (Textual Prompts)
Pendekatan textual prompts dalam semantic segmentation melibatkan penggunaan deskripsi teks untuk memberi tahu AI objek apa yang harus diidentifikasi. Misalnya, Anda bisa memberikan instruksi seperti “segmentasi semua kursi” atau “temukan area yang menunjukkan karat”. Metode ini sangat intuitif dan memungkinkan AI untuk mencari kategori objek yang sangat luas, bahkan yang belum pernah dilihatnya selama pelatihan spesifik untuk kategori tersebut (konsep ini dikenal sebagai open-vocabulary semantic segmentation).
Kekuatan utama dari textual prompts adalah fleksibilitasnya. Dengan hanya mengubah teks instruksi, Anda bisa meminta AI untuk mencari objek yang berbeda tanpa perlu melatih ulang model. Ini sangat efisien untuk objek-objek umum yang mudah dideskripsikan dengan kata-kata. Model AI canggih yang dilatih pada dataset teks dan gambar yang besar, seperti yang mendasari banyak aplikasi Vision AI modern, dapat memahami hubungan antara kata-kata dan konsep visual. Namun, pendekatan ini memiliki keterbatasan. Objek atau konsep yang kompleks, ambigu, atau sulit dideskripsikan secara spesifik dengan teks bisa menjadi tantangan. Contoh klasik adalah membedakan antara berbagai jenis retakan pada dinding atau mengidentifikasi spesies burung yang sangat mirip hanya dari deskripsi teks. Terkadang, prompt teks juga bisa ambigu, seperti kata “mouse” yang bisa merujuk pada hewan atau periferal komputer, menyebabkan AI melakukan segmentasi yang tidak diinginkan.
Menunjukkan AI dengan Gambar (Visual Prompts)
Sebagai alternatif, visual prompts melibatkan pemberian contoh visual kepada AI. Ini bisa berupa gambar referensi dari objek yang dicari, atau bahkan hanya menandai area tertentu dalam gambar (misalnya, menggunakan bounding box atau coretan sederhana) untuk menunjukkan kepada AI “cari objek seperti ini”. Pendekatan ini meniru cara manusia belajar mengenali objek – seringkali lebih mudah menunjukkan contoh daripada mendeskripsikannya secara detail.
Kelebihan utama visual prompts adalah kemampuannya menangani objek yang sulit dideskripsikan dengan teks atau objek yang sangat spesifik dan unik. Dengan menunjukkan contoh visual, AI dapat mempelajari pola visual yang kompleks dan detail yang mungkin terlewatkan dalam deskripsi teks. Ini sangat berguna dalam skenario seperti mendeteksi cacat manufaktur yang bentuknya bervariasi atau mengidentifikasi komponen elektronik yang rumit. Namun, visual prompts juga memiliki tantangan. Kinerja AI bisa sangat bergantung pada kualitas dan representativitas contoh visual yang diberikan. Jika contoh visual tidak bervariasi atau tidak menangkap seluruh rentang penampilan objek yang dicari, AI mungkin kesulitan mengenali objek tersebut dalam gambar lain. Selain itu, menangani segmentasi multi-kelas (mengenali banyak jenis objek berbeda dalam satu gambar) menggunakan visual prompts asli yang dirancang untuk satu objek bisa menjadi lebih rumit, meskipun metode baru terus dikembangkan untuk menggabungkan hasil dari beberapa visual prompt.
Benchmark “Show or Tell” dan Temuan Kuncinya
Untuk memahami secara objektif mana yang lebih efektif antara textual dan visual prompts, sebuah benchmark baru bernama “Show or Tell” (SoT) telah dikembangkan. Benchmark ini secara sistematis membandingkan kinerja berbagai metode berbasis textual prompts (open-vocabulary) dan visual prompts (visual reference) untuk tugas semantic segmentation pada 14 dataset yang mencakup 7 domain berbeda, mulai dari objek umum, lingkungan perkotaan, makanan, limbah, komponen, perkakas, hingga tutupan lahan. Tujuannya adalah mengevaluasi kedua modalitas instruksi ini di bawah kondisi yang identik.
Hasil dari benchmark SoT memberikan wawasan berharga. Ditemukan bahwa metode berbasis textual prompts cenderung unggul dalam domain di mana objek yang dicari adalah konsep umum yang mudah dideskripsikan dengan teks. Namun, kinerja mereka menurun drastis pada domain yang lebih kompleks atau spesifik seperti perkakas atau komponen, di mana deskripsi teks mungkin tidak cukup untuk menangkap nuansa visual yang diperlukan. Sebaliknya, metode berbasis visual prompts menunjukkan hasil rata-rata yang baik di berbagai domain, tetapi kinerjanya sangat bervariasi tergantung pada contoh visual yang diberikan sebagai prompt. Ini menegaskan bahwa memilih prompt yang tepat, baik teks maupun visual, sangat krusial untuk keberhasilan aplikasi semantic segmentation.
Implikasi untuk Bisnis di Indonesia
Temuan dari benchmark “Show or Tell” memiliki implikasi langsung bagi bisnis di Indonesia yang ingin mengimplementasikan atau meningkatkan solusi Vision AI mereka. Pemilihan jenis prompt – apakah memberi tahu AI dengan teks atau menunjukkan dengan gambar – harus disesuaikan dengan kebutuhan spesifik aplikasi dan karakteristik objek yang dicari.
- Manufaktur: Untuk mendeteksi cacat yang bentuknya bervariasi (misalnya, goresan, retakan halus), visual prompts mungkin lebih efektif karena memungkinkan AI mempelajari pola visual cacat tersebut secara langsung dari contoh, yang sulit dideskripsikan dengan teks.
- Ritel: Untuk mengenali produk umum di rak toko (misalnya, botol minuman, kemasan keripik), textual prompts atau kombinasi keduanya bisa sangat efisien, memanfaatkan kemampuan open-vocabulary untuk mengidentifikasi berbagai jenis produk dengan cepat.
- Healthcare: Dalam analisis gambar medis (misalnya, segmentasi tumor, lesi), visual prompts dari data medis yang sudah diberi label oleh ahli medis akan sangat penting untuk melatih AI mengenali pola visual spesifik yang mungkin tidak dapat dijelaskan secara memadai hanya dengan teks.
- Otomotif & Transportasi: Untuk mengidentifikasi jenis kendaraan, plat nomor, atau komponen spesifik, kombinasi textual prompts (untuk jenis kendaraan umum) dan visual prompts (untuk model spesifik atau komponen langka) mungkin menjadi pendekatan terbaik.
Memilih strategi prompting yang tepat adalah kunci untuk membangun solusi Vision AI yang akurat, efisien, dan dapat diandalkan sesuai dengan konteks industri di Indonesia.
Bagaimana ARSA Technology Dapat Membantu?
Sebagai penyedia solusi AI dan IoT terkemuka di Indonesia, ARSA Technology memahami pentingnya detail teknis dalam membangun sistem Vision AI yang efektif. Tim ahli kami tidak hanya menguasai teknologi inti seperti semantic segmentation, tetapi juga mendalami aspek-aspek lanjutan seperti prompt engineering.
Kami bekerja sama dengan bisnis di berbagai sektor – manufaktur, healthcare, konstruksi, pertambangan, ritel, dan pemerintahan – untuk merancang dan mengimplementasikan solusi Vision AI yang sesuai dengan tantangan unik mereka. Dengan pemahaman mendalam tentang kekuatan dan kelemahan berbagai metode prompting, baik tekstual maupun visual, kami dapat memilih, mengadaptasi, dan mengoptimalkan model Vision AI untuk memberikan hasil segmentasi yang paling akurat dan relevan untuk aplikasi spesifik Anda, entah itu deteksi cacat, analisis lalu lintas, pemantauan keamanan, atau analisis medis. Kami mengubah teknologi kompleks menjadi solusi praktis yang mendorong efisiensi, meningkatkan kualitas, dan menciptakan aliran pendapatan baru bagi bisnis Anda.
Kesimpulan
Semantic segmentation adalah teknologi Vision AI yang sangat kuat dengan potensi besar untuk transformasi bisnis di Indonesia. Namun, efektivitasnya sangat bergantung pada bagaimana kita “menginstruksikan” AI untuk melakukan tugas tersebut. Perbandingan antara textual prompts dan visual prompts menunjukkan bahwa tidak ada satu metode yang superior untuk semua skenario; pemilihan terbaik tergantung pada karakteristik objek yang dicari dan konteks aplikasi. Memahami nuansa ini dan mampu mengimplementasikan strategi prompting yang optimal adalah kunci untuk membuka potensi penuh Vision AI. Dengan keahlian dalam Vision AI Analytics dan pengalaman melayani berbagai industri di Indonesia, ARSA Technology siap menjadi mitra Anda dalam navigasi kompleksitas ini dan membangun solusi Vision AI yang benar-benar memberikan dampak.
Konsultasikan kebutuhan AI Anda dengan tim ARSA Technology.