Meningkatkan Stabilitas Penalaran AI: Pendekatan Inclusion-of-Thoughts untuk Model Bahasa
Pelajari bagaimana metode Inclusion-of-Thoughts (IoT) meningkatkan stabilitas penalaran Large Language Models (LLMs) dalam soal pilihan ganda, mengatasi ketidakstabilan preferensi akibat pengecoh.
Revolusi Penalaran AI: Mengatasi Tantangan dalam Pengambilan Keputusan Model Bahasa
Large Language Models (LLMs) telah menunjukkan kemampuan luar biasa dalam berbagai tugas Natural Language Processing (NLP), tetapi penalaran mereka masih menjadi area yang terus dikembangkan. Salah satu tantangan signifikan adalah "ketidakstabilan preferensi" atau "beban kognitif" yang dialami LLM, terutama saat dihadapkan pada soal pilihan ganda (MCQ) dengan opsi pengecoh yang meyakinkan. Pengecoh ini sering kali mengalihkan perhatian model ke pilihan yang tidak relevan, menyebabkan fluktuasi antara jawaban benar dan salah, bahkan ketika jawaban yang tepat sebenarnya sudah ada di antara kandidat dengan kepercayaan diri tinggi. Permasalahan ini mengindikasikan bahwa kegagalan bukan selalu karena kurangnya pengetahuan, melainkan karena ambiguitas komparatif.
Mengatasi keterbatasan ini, sebuah penelitian terbaru mengusulkan metode Inclusion-of-Thoughts (IoT). Konsep ini, berbeda dengan Internet of Things yang sering kita kenal, adalah strategi penyaringan mandiri progresif yang dirancang untuk mengurangi beban kognitif tersebut dan memungkinkan model untuk fokus lebih efektif pada jawaban yang paling masuk akal. Dengan menyaring dan hanya menyajikan opsi yang paling "masuk akal" kepada model, Inclusion-of-Thoughts meningkatkan transparansi dan interpretasi proses pengambilan keputusan model, sekaligus menghasilkan peningkatan kinerja yang substansial. Artikel ini akan mengulas lebih dalam tentang bagaimana pendekatan inovatif ini bekerja dan implikasinya untuk masa depan pengembangan AI.
Mengapa Model AI Sulit dalam Soal Pilihan Ganda?
Soal pilihan ganda adalah tolok ukur umum untuk mengevaluasi kemampuan penalaran LLM. Namun, model seringkali bergulat dengan opsi pengecoh. Fenomena ini, yang disebut "ketidakstabilan preferensi," terjadi ketika model memiliki kandidat jawaban yang benar dengan kepercayaan tinggi, tetapi pengambilan keputusan akhirnya terganggu oleh perbandingan ambigu dengan pengecoh yang tampaknya masuk akal. Bayangkan seorang manusia yang mencoba memecahkan teka-teki, tetapi setiap opsi yang sedikit mirip terus-menerus menarik perhatian, menghambat fokus pada solusi yang paling tepat. Ini bukan masalah kekurangan informasi, melainkan masalah pemurnian ruang keputusan.
Pendekatan Chain-of-Thought (CoT) telah meningkatkan kinerja model secara signifikan dalam tugas penalaran multi-langkah dengan mendorong model untuk menghasilkan serangkaian kalimat yang meniru proses penalaran manusia. Namun, bahkan dengan CoT, kehadiran pengecoh yang kuat dapat menyebabkan model "berosilasi" atau tidak stabil dalam pilihannya. Ini menunjukkan adanya kebutuhan untuk tidak hanya memperluas ruang penalaran tetapi juga untuk memurnikan ruang keputusan itu sendiri, memastikan stabilitas preferensi model.
Inclusion-of-Thoughts (IoT): Memurnikan Ruang Keputusan AI
Inclusion-of-Thoughts adalah kerangka kerja tiga tahap yang dirancang untuk secara sistematis memurnikan ruang keputusan LLM, sehingga model dapat membuat penilaian yang lebih stabil dan akurat. Metode ini beroperasi dengan merekonstruksi MCQ hanya dengan pilihan yang paling masuk akal, menciptakan pengaturan yang terkontrol untuk membandingkan penilaian dan menguji stabilitas penalaran internal model di bawah perturbasi.
- **Tahap 1: Elicitation Preferensi Awal**
Pada tahap ini, model pertama-tama diberi MCQ lengkap dengan semua opsi yang tersedia. Menggunakan pendekatan CoT standar, model menghasilkan jawaban yang paling mungkin, yaitu kandidat pilihan teratasnya. Ini mencerminkan preferensi mentah model atas kumpulan opsi penuh.
- **Tahap 2: Penilaian Plausibilitas Kedua**
Untuk menggali lebih dalam preferensi awal ini dan mengidentifikasi alternatif terbaik berikutnya, kumpulan opsi diubah. Pilihan teratas dari tahap 1 dihapus dari kumpulan, dan model kemudian diminta lagi dengan kumpulan opsi yang telah dimodifikasi (terkadang dengan penambahan "pilihan netral") untuk mengidentifikasi pilihan "kedua terbaik" atau paling masuk akal berikutnya. Ini memungkinkan model untuk mempertimbangkan pilihan-pilihan yang mungkin terabaikan pada pandangan pertama.
- **Tahap 3: Penilaian Terkontrol**
Setelah mengidentifikasi dua opsi yang paling masuk akal (dari tahap 1 dan 2), MCQ direkonstruksi untuk hanya menyertakan dua opsi ini. Model kemudian membuat penilaian komparatif akhir dalam lingkungan yang telah dimurnikan. Proses ini secara efektif menghilangkan gangguan dari pengecoh yang tidak relevan, memungkinkan model untuk sepenuhnya fokus pada perbandingan antara dua kandidat teratasnya. Seluruh proses penyaringan ini didokumentasikan, meningkatkan transparansi dan interpretabilitas pengambilan keputusan model.
Pendekatan ini mirip dengan cara manusia mengatasi pilihan yang berlebihan: menyaring opsi yang kurang relevan untuk fokus pada beberapa pilihan teratas sebelum membuat keputusan akhir. Ini adalah metode yang efisien secara komputasi dan tidak memerlukan anotasi manusia tambahan, model bantu, atau fine-tuning.
Manfaat Utama Pendekatan Inclusion-of-Thoughts
Metode Inclusion-of-Thoughts menghadirkan sejumlah manfaat signifikan bagi kinerja LLM dan implementasi AI di dunia nyata:
Peningkatan Akurasi yang Substansial: Evaluasi empiris ekstensif menunjukkan bahwa Inclusion-of-Thoughts secara substansial meningkatkan kinerja Chain-of-Thought di berbagai tolok ukur aritmatika, penalaran akal sehat, dan pendidikan. Misalnya, saat digunakan dengan Olmo-2-7b, metode ini mencapai tingkat kinerja state-of-the-art* pada tugas penalaran akal sehat seperti OBQA (+3,40%), CSQA (+2,05%), GSM8K-MC (+3,95%), dan tolok ukur pendidikan seperti ARC (+3,33%) dan MMLU (+1,16%). Ini menunjukkan kemampuan untuk membuat AI lebih cerdas dan dapat diandalkan dalam tugas penalaran kompleks. Efisiensi Komputasi dan Penerapan Ringan: Berbeda dengan metode lain yang mengandalkan agregasi yang mahal atau strategi pencarian yang kompleks, Inclusion-of-Thoughts membutuhkan overhead* komputasi minimal. Ini menjadikannya solusi yang hemat biaya dan skalabel untuk meningkatkan stabilitas penalaran tanpa memerlukan sumber daya komputasi yang besar. Transparansi dan Interpretasi yang Ditingkatkan: Dengan secara eksplisit mendokumentasikan proses penyaringan, Inclusion-of-Thoughts* meningkatkan transparansi dan interpretabilitas pengambilan keputusan model. Hal ini krusial untuk aplikasi AI di mana pemahaman mengapa model membuat keputusan tertentu sangat penting, seperti dalam analitik video AI untuk keamanan atau pengawasan kepatuhan.
- **Penerapan Zero-Shot dan Unsupervised:** Metode ini bekerja secara langsung dengan model bahasa yang sudah dilatih sebelumnya, tanpa memerlukan anotasi manusia tambahan, model bantu, pelatihan ekstra, atau fine-tuning. Hal ini mempermudah adopsi dan implementasi dalam berbagai lingkungan.
Implikasi untuk Adopsi AI Tingkat Perusahaan
Peningkatan stabilitas dan akurasi penalaran LLM yang ditawarkan oleh Inclusion-of-Thoughts memiliki implikasi besar bagi perusahaan di berbagai sektor. Model AI yang lebih stabil berarti:
- Pengambilan Keputusan yang Lebih Andal: Dalam aplikasi seperti analisis data keuangan, diagnosis medis, atau sistem manajemen rantai pasokan, keandalan AI sangat penting. Metode ini dapat mengurangi risiko kesalahan akibat ketidakstabilan preferensi, memberikan kepercayaan lebih pada keputusan yang dihasilkan AI.
- Efisiensi Operasional: Dengan kemampuan AI untuk memproses informasi dan membuat keputusan yang lebih akurat, perusahaan dapat mengoptimalkan operasi mereka. Misalnya, dalam sistem parkir cerdas atau manajemen lalu lintas, keputusan yang lebih tepat tentang alokasi sumber daya atau respons terhadap insiden dapat menghemat waktu dan biaya.
- Peningkatan Keamanan dan Kepatuhan: Untuk aplikasi yang memerlukan verifikasi identitas, seperti dalam sistem keamanan atau e-KYC, penalaran yang stabil dan akurat sangat penting untuk mencegah penipuan. Transparansi yang ditingkatkan juga mendukung kepatuhan terhadap peraturan yang ketat.
Penyedia solusi seperti ARSA Technology, yang telah berpengalaman sejak 2018 dalam menghadirkan sistem AI yang siap produksi, sangat memahami pentingnya presisi dan stabilitas ini. Dalam mengembangkan solusi AI kustom untuk berbagai industri, ARSA Technology fokus pada implementasi AI yang tidak hanya inovatif tetapi juga praktis, terbukti, dan menguntungkan.
Masa Depan AI yang Lebih Cerdas dan Andal
Penelitian tentang Inclusion-of-Thoughts ini menyoroti pergeseran penting dalam pengembangan AIādari sekadar meningkatkan skala model menjadi fokus pada peningkatan kualitas dan stabilitas pengambilan keputusan. Dengan mengatasi akar masalah ketidakstabilan preferensi, kita dapat membangun sistem AI yang lebih tangguh, transparan, dan dapat diandalkan. Kemampuan untuk secara efektif "memurnikan" ruang keputusan model adalah langkah maju yang signifikan menuju AI yang tidak hanya cerdas tetapi juga bijaksana dalam penalaran.
Metode Inclusion-of-Thoughts menunjukkan bahwa inovasi dalam arsitektur dan strategi penalaran dapat memberikan dampak besar pada kinerja AI, membuka jalan bagi aplikasi AI yang lebih kuat dan bertanggung jawab di masa depan.
Tertarik untuk menerapkan solusi AI yang cerdas dan andal dalam organisasi Anda? Jelajahi berbagai solusi AI dan IoT dari ARSA Technology dan dapatkan konsultasi gratis dengan tim ahli kami.
Sumber: Madani, M. R. G., Han, S. C., Yang, S., & Lau, J. H. (2026). Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space. arXiv preprint arXiv:2604.04944. https://arxiv.org/abs/2604.04944