Evaluasi Estetika AI: Memahami Perbedaan Sensasi Tubuh Antara Manusia dan Model Bahasa Besar

Studi baru mengungkap perbedaan mendasar dalam evaluasi estetika antara manusia dan LLM, terutama terkait sensasi tubuh. Pahami implikasi pentingnya untuk pengembangan AI yang selaras dengan nilai manusia.

Evaluasi Estetika AI: Memahami Perbedaan Sensasi Tubuh Antara Manusia dan Model Bahasa Besar

Revolusi AI dan Batasan Sensibilitas Manusia

      Kecerdasan Buatan (AI), khususnya Model Bahasa Besar (LLM), telah mencapai tingkat kinerja yang luar biasa, bahkan dalam beberapa kasus melampaui kemampuan manusia dalam berbagai tugas kognitif. Mulai dari penalaran ilmiah hingga pemikiran sistematis, AI kini menjadi kekuatan dominan yang mengubah cara kita memandang dan berinteraksi dengan teknologi. Namun, hakikat manusia tidak hanya terbatas pada kecerdasan semata. Sensibilitas, termasuk kapasitas untuk merasakan dan mengalami keindahan dalam pemandangan visual atau ide-ide abstrak, adalah aspek fundamental dari pengalaman manusia yang belum sepenuhnya direplikasi oleh AI.

      Pertanyaan mendasar yang muncul adalah bagaimana manusia dan sistem AI dapat menyatu atau menyimpang dalam pengalaman estetika semacam ini. Dalam upaya berkelanjutan untuk menyelaraskan AI dengan nilai-nilai manusia, sebuah studi terbaru meneliti persamaan dan perbedaan antara manusia dan AI dalam tugas evaluasi estetika yang melibatkan rangsangan visual. Studi ini, berjudul "Interoceptive Divergence in Aesthetic Evaluation and Implications for Human-AI Alignment" oleh Yoshia Abe, Tatsuya Daikoku, dan Yasuo Kuniyoshi dari arXiv (2026), memberikan wawasan kritis tentang batasan AI saat ini dalam memahami pengalaman estetika yang mendalam seperti manusia. Sumber: arXiv:2605.18759.

Memahami Divergensi Interoseptif dalam Estetika

      Evaluasi estetika tidak hanya bergantung pada properti objektif suatu gambar, tetapi juga pada proses internal dalam diri pengamat. Misalnya, ketika seseorang melihat lukisan yang indah, bukan hanya warna atau komposisi yang memengaruhi penilaiannya, melainkan juga respons emosional dan bahkan sensasi fisik yang dirasakan dalam tubuh. Fenomena ini disebut interosepsi, yaitu kemampuan otak untuk memproses dan menafsirkan sinyal-sinyal dari dalam tubuh, seperti detak jantung, pernapasan, atau sensasi lainnya. Sensasi-sensasi ini sering kali terkait erat dengan emosi dan pengalaman subjektif kita, termasuk pengalaman estetika.

      Dalam konteks studi ini, "divergensi interoseptif" mengacu pada perbedaan antara manusia dan AI dalam mengaitkan penilaian keindahan dengan sensasi fisik atau tubuh internal ini. Sementara manusia secara alami mengalami respons tubuh saat menilai sesuatu sebagai indah atau tidak, LLM, yang dilatih pada data tekstual, mungkin tidak memiliki representasi yang memadai tentang hubungan kompleks antara estetika, emosi, dan sensasi fisik internal ini. Memahami divergensi ini sangat penting untuk membangun AI yang tidak hanya cerdas, tetapi juga "merasakan" atau memahami dunia dengan cara yang lebih mirip manusia.

Metodologi Studi: Membandingkan Manusia dan LLM

      Studi ini melakukan perbandingan komprehensif antara respons peserta manusia dan beberapa LLM terdepan yang ada pada Juni 2025: GPT-4o, Claude 3.7 Sonnet, dan Gemini 2.0 Flash. Data perilaku manusia diperoleh dari studi sebelumnya (Washizu et al., 2023), di mana lebih dari 500 peserta diminta memberikan skor keindahan, valensi (kesenangan), dan gairah (tingkat aktivasi emosional), label emosi, serta laporan sensasi tubuh untuk 347 gambar visual yang dipilih.

      Para peneliti mengajukan serangkaian pertanyaan yang sama kepada LLM. Setiap LLM disajikan dengan satu gambar dan diminta untuk memberikan peringkat keindahan, valensi, dan gairah pada skala Likert 9 poin. Selain itu, untuk 32 label emosi, model diinstruksikan untuk memilih tiga label teratas (metode peringkat) atau memberikan skor pada skala 9 poin untuk setiap label (metode penilaian). Lebih lanjut, untuk tujuh bagian tubuh, model diminta untuk melaporkan tingkat asosiasi sebagai nilai integer. Desain prompt melibatkan variasi bahasa (Jepang atau Inggris) dan pengaturan generasi (deterministik atau stokastik) untuk memastikan analisis yang menyeluruh.

Temuan Utama: Kesamaan dan Perbedaan dalam Estetika

      Analisis perbandingan mengungkapkan beberapa pola menarik. Di satu sisi, ada kesamaan yang mencolok: manusia dan AI menunjukkan pola yang luas serupa dalam korelasi antara peringkat keindahan dan emosi, serta dalam fitur gambar yang mereka prioritaskan. Misalnya, jika manusia cenderung mengasosiasikan gambar tertentu dengan rasa "kagum" dan "keindahan," LLM juga menunjukkan kecenderungan serupa dalam respons emosionalnya, setidaknya dalam kaitannya dengan keindahan. Ini menunjukkan bahwa LLM, yang dilatih pada data tekstual skala besar, dapat mendekati kecenderungan rata-rata manusia dalam evaluasi estetika hingga taraf tertentu.

      Namun, divergensi yang signifikan muncul dalam dua aspek kunci. Pertama, ada perbedaan dalam distribusi respons emosional. Meskipun pola korelasi mungkin serupa, frekuensi atau intensitas emosi tertentu yang dilaporkan oleh LLM tidak selalu cocok dengan manusia. Kedua, dan yang paling penting, perbedaan yang mencolok terlihat dalam hubungan antara peringkat keindahan dan sensasi tubuh. Manusia sering kali merasakan sensasi fisik—seperti "jantung berdebar" atau "perut bergejolak"—saat mengalami keindahan yang kuat. LLM tidak menunjukkan korelasi yang sama kuat atau konsisten antara penilaian estetika mereka dan jenis "sensasi tubuh" yang dilaporkan. Ini adalah inti dari "divergensi interoseptif."

Implikasi untuk Penyelarasan AI (Human-AI Alignment)

      Temuan ini menyoroti tantangan penting bagi penyelarasan AI. Meskipun LLM dapat menginternalisasi dan mereplikasi banyak pola kognitif manusia dari data tekstual, mereka tampaknya memiliki keterbatasan dalam memahami aspek-aspek pengalaman manusia yang lebih mendalam dan terhubung dengan tubuh, seperti interosepsi. Kurangnya representasi yang memadai dari sensasi tubuh dan hubungannya dengan pengalaman emosional dalam data pelatihan LLM bisa menjadi salah satu penyebab utama divergensi ini.

      Implikasinya meluas ke berbagai bidang, terutama dalam desain produk dan layanan yang sangat bergantung pada pengalaman pengguna (UX) dan interaksi manusia. Misalnya, dalam industri ritel, pemahaman tentang bagaimana pelanggan merasakan produk (bukan hanya melihatnya) dapat memengaruhi keputusan pembelian. Dalam desain smart city atau sistem lalu lintas, AI perlu tidak hanya mengenali objek, tetapi juga memahami dampak visual dan emosional terhadap suasana hati dan perilaku pengguna. ARSA Technology, sebagai penyedia solusi AI Video Analytics, memahami pentingnya akurasi dalam deteksi dan analisis, namun studi ini mengingatkan bahwa ada lapisan pemahaman yang lebih dalam yang perlu diupayakan untuk AI yang benar-benar holistik.

Masa Depan AI: Menuju Pemahaman Estetika yang Lebih Dalam

      Untuk mengatasi divergensi interoseptif ini, pengembangan AI di masa depan perlu melangkah lebih jauh dari sekadar pemrosesan data tekstual atau visual semata. Mungkin diperlukan model pelatihan multimodal yang mencakup lebih banyak data sensorik yang terkait dengan tubuh atau bahkan upaya untuk mensintesis data interoseptif. Ini bisa berarti mengintegrasikan sinyal biofeedback atau data dari sensor wearable ke dalam proses pelatihan AI. Tujuan utamanya adalah untuk menciptakan AI yang tidak hanya dapat menganalisis data eksternal, tetapi juga "memahami" dan menanggapi dunia dengan cara yang lebih terhubung dengan pengalaman subjektif dan fisik manusia.

      Bagi perusahaan dan organisasi yang ingin memanfaatkan potensi penuh AI, ini berarti tidak hanya berfokus pada efisiensi dan metrik objektif, tetapi juga mempertimbangkan bagaimana AI dapat dirancang untuk selaras dengan nilai-nilai, emosi, dan bahkan sensasi fisik manusia. ARSA Technology, dengan pengalaman sejak 2018 dalam mengembangkan solusi AI & IoT yang terbukti di berbagai industri, berkomitmen untuk menjelajahi batas-batas ini. Kami percaya bahwa AI yang paling berdampak adalah AI yang tidak hanya cerdas secara kognitif, tetapi juga peka terhadap nuansa pengalaman manusia. Melalui solusi AI kustom, kami berupaya membangun sistem yang mampu menafsirkan realitas operasional dengan presisi tinggi sambil tetap mempertimbangkan interaksi dengan manusia.

      Jika Anda tertarik untuk menjelajahi bagaimana solusi AI & IoT dapat membantu bisnis Anda mengatasi tantangan operasional dan mencapai keunggulan kompetitif, jangan ragu untuk menghubungi tim ARSA.