Di era transformasi digital yang semakin cepat, pemahaman mendalam tentang aktivitas manusia menjadi kunci penting untuk berbagai aplikasi, mulai dari keselamatan kerja hingga pemantauan kesehatan dan interaksi robotik. Teknologi seperti sensor pada perangkat wearable (IMU) dan sistem pengawasan (video) telah lama digunakan, namun seringkali analisisnya terbatas pada satu jenis data (unimodal).

      Penelitian terbaru dari Kyushu Institute of Technology memperkenalkan pendekatan revolusioner: AURA-MFM (Activity Understanding and Representations Alignment – Multimodal Foundation Model). Model ini menggabungkan kekuatan dari empat jenis data atau modalitas sekaligus: video sudut pandang orang ketiga (third-person video), penangkapan gerak (motion capture), data sensor IMU, dan teks. Dengan menggabungkan sumber data ini, AURA-MFM membuka jalan bagi analisis aktivitas manusia yang jauh lebih detail dan akurat, melampaui keterbatasan metode konvensional.

Memahami AURA-MFM: Model Multimodal Revolusioner

      AURA-MFM adalah sebuah model dasar (foundation model) yang dirancang untuk memahami aktivitas manusia secara komprehensif. Tidak seperti model sebelumnya yang mungkin hanya menggunakan video sudut pandang orang pertama (dari kacamata pintar misalnya) atau data sensor saja, AURA-MFM mengintegrasikan perspektif yang lebih kaya.

      Empat modalitas yang diproses oleh AURA-MFM meliputi:

  • Video sudut pandang orang ketiga: Rekaman dari kamera konvensional yang melihat subjek dari luar, memungkinkan analisis gerakan seluruh tubuh dan interaksi dengan lingkungan.
  • Penangkapan gerak (motion capture): Data sangat detail mengenai posisi dan orientasi setiap bagian tubuh, memberikan pemahaman gerakan yang presisi.
  • Data IMU: Informasi dari sensor seperti akselerometer dan giroskop pada perangkat wearable, menangkap dinamika gerakan langsung dari tubuh.
  • Teks: Deskripsi verbal atau naratif tentang aktivitas yang sedang terjadi, menghubungkan data sensorik dengan pemahaman konseptual.

      Model ini memproses setiap jenis data menggunakan “encoder” khusus, lalu menyelaraskan representasi data tersebut dalam satu ruang representasi bersama (shared latent space). Dengan menyatukan data dari berbagai modalitas ini, AURA-MFM dapat membangun pemahaman yang lebih kuat dan multidimensional tentang apa yang sedang dilakukan seseorang.

Mengapa Multimodalitas Penting untuk Pengenalan Aktivitas?

      Analisis aktivitas manusia yang hanya mengandalkan satu jenis data memiliki keterbatasan inheren. Video sudut pandang orang pertama mungkin bagus untuk melihat apa yang dilihat pengguna, tetapi buruk dalam menangkap gerakan kaki atau interaksi di belakang mereka. Data IMU memberikan informasi gerakan yang sangat detail, tetapi tidak memberikan konteks visual atau lingkungan sekitar.

      Menggabungkan keempat modalitas dalam AURA-MFM mengatasi keterbatasan ini. Video sudut pandang orang ketiga dan motion capture, misalnya, memberikan pemahaman yang kaya tentang gerakan seluruh tubuh dan postur, sesuatu yang sulit didapat dari video orang pertama saja. Data IMU melengkapi dengan informasi dinamika gerakan yang halus, sementara teks memberikan label semantik yang penting untuk klasifikasi dan pencarian.

      Pendekatan multimodal ini sangat relevan untuk tugas-tugas yang membutuhkan pemahaman nuansa gerakan, seperti analisis performa atlet, evaluasi rehabilitasi pasien, atau pemantauan kepatuhan prosedur keselamatan di lingkungan industri.

Inovasi di Balik AURA-MFM: Transformer untuk Data IMU

      Salah satu aspek teknis penting dari AURA-MFM adalah penggunaan arsitektur Transformer untuk memproses data IMU. Metode sebelumnya, seperti IMU2CLIP, seringkali masih mengandalkan arsitektur RNN (Recurrent Neural Network) untuk encoder IMU.

      Meskipun RNN dapat memproses data sekuensial seperti data sensor, arsitektur Transformer, dengan mekanisme self-attention-nya, terbukti lebih efektif dalam menangkap ketergantungan jangka panjang (long-range dependencies) dalam data time-series yang kompleks seperti data IMU. Ini memungkinkan model untuk mempelajari representasi data IMU yang lebih kaya dan efisien, yang kemudian dapat diselaraskan dengan lebih baik dengan modalitas lain seperti video dan teks dalam ruang representasi bersama. Peningkatan ini berkontribusi signifikan pada kinerja keseluruhan AURA-MFM dalam tugas pengenalan aktivitas dan pencarianข้าม-modal.

Dampak Nyata untuk Bisnis: Aplikasi di Berbagai Industri

      Teknologi AI multimodal seperti AURA-MFM memiliki potensi besar untuk transformasi operasional di berbagai sektor industri di Indonesia.

  • Manufaktur dan Konstruksi: Meningkatkan keselamatan kerja melalui deteksi aktivitas dan postur yang berisiko. Misalnya, mendeteksi apakah pekerja melakukan gerakan pengangkatan beban yang salah, atau apakah mereka berada di area berbahaya terlalu lama berdasarkan data IMU dan video. Ini relevan dengan solusi Otomasi Industri & Monitoring ARSA Technology.
  • Kesehatan dan Rehabilitasi: Memantau kemajuan pasien pasca-operasi atau lansia di rumah secara akurat. Data gabungan dari wearable (IMU) dan video (dari kamera pengawas yang dipasang di rumah) dapat mendeteksi pola gerakan yang tidak biasa, risiko jatuh, atau kepatuhan terhadap jadwal latihan rehabilitasi. Ini sejalan dengan visi Teknologi Kesehatan Mandiri.
  • Pelatihan Karyawan: Meningkatkan efektivitas pelatihan berbasis simulasi, seperti Pelatihan Berbasis VR. Dengan motion capture dan data IMU, model dapat menganalisis gerakan peserta pelatihan dengan sangat detail, memberikan feedback objektif tentang akurasi prosedur, postur, dan respons dalam skenario darurat.
  • Keamanan dan Pengawasan: Meningkatkan kemampuan sistem pengawasan untuk mendeteksi perilaku mencurigakan atau anomali yang sulit dikenali hanya dari video biasa. Kombinasi data visual dan sensorik memungkinkan analisis yang lebih mendalam. Ini melengkapi solusi Analitik Video AI Real-time.

      Kemampuan AURA-MFM untuk melakukan klasifikasi zero-shot (mengenali aktivitas baru hanya dari deskripsi teksnya tanpa melihat contoh video atau sensor sebelumnya) juga membuka peluang untuk adaptasi cepat terhadap kebutuhan pengawasan atau analisis aktivitas yang terus berkembang di lapangan.

Hasil yang Unggul: Bukti Kinerja AURA-MFM

      Evaluasi eksperimental yang dilakukan oleh para peneliti menunjukkan bahwa AURA-MFM secara signifikan mengungguli metode yang ada dalam berbagai tugas, terutama dalam pengenalan aktivitas zero-shot. Dalam skenario ini, model harus mengenali aktivitas yang belum pernah “dilihat” sebelumnya dalam data pelatihan.

      AURA-MFM mencapai kinerja F1-score 0.6226 dan akurasi 0.7320, jauh lebih tinggi dibandingkan metode sebelumnya yang hanya mencapai F1-score 0.0747 dan akurasi 0.1961. Hasil ini menunjukkan kemampuan superior AURA-MFM dalam memahami dan menggeneralisasi pemahaman aktivitas manusia, bahkan untuk aktivitas yang jarang atau baru ditemui. Kinerja unggul ini menegaskan potensi AURA-MFM sebagai fondasi kuat untuk aplikasi AI yang memerlukan pemahaman aktivitas manusia yang mendalam dan adaptif.

Bagaimana ARSA Technology Dapat Membantu?

      Sebagai perusahaan teknologi AI dan IoT terkemuka di Indonesia yang telah berpengalaman sejak 2018, ARSA Technology memiliki keahlian dalam mengadaptasi dan mengimplementasikan solusi AI canggih untuk kebutuhan spesifik industri lokal. Prinsip-prinsip di balik AURA-MFM, seperti analisis multimodal, pengenalan aktivitas berbasis sensor dan visual, serta penggunaan arsitektur AI modern, sangat relevan dengan area fokus ARSA.

      ARSA Technology telah membangun solusi berbasis AI Vision & IoT yang mencakup analitik video, monitoring sensor, dan sistem cerdas lainnya. Keahlian ini memungkinkan kami untuk mengeksplorasi dan mengintegrasikan pendekatan multimodal seperti AURA-MFM ke dalam solusi yang ada atau mengembangkan aplikasi baru yang memanfaatkan pemahaman aktivitas manusia yang lebih mendalam. Kami siap membantu bisnis Anda menerapkan teknologi terkini untuk meningkatkan efisiensi, keselamatan, dan kinerja operasional melalui analisis aktivitas manusia yang akurat dan berbasis data.

Kesimpulan

      Penelitian tentang AURA-MFM menunjukkan kemajuan penting dalam bidang pengenalan aktivitas manusia melalui pendekatan multimodal yang menggabungkan video, motion capture, IMU, dan teks. Dengan mengatasi keterbatasan metode unimodal dan memanfaatkan arsitektur AI yang lebih canggih, AURA-MFM menawarkan pemahaman aktivitas yang lebih detail dan akurat, serta kemampuan adaptasi yang superior. Potensi aplikasi teknologi ini sangat luas, mulai dari peningkatan keselamatan dan efisiensi di industri berat hingga pemantauan kesehatan dan pengembangan pelatihan yang lebih efektif.

      Bagi bisnis di Indonesia yang ingin memanfaatkan teknologi AI terbaru untuk mendapatkan insight mendalam dari aktivitas manusia, memahami dan mengadopsi prinsip multimodalitas adalah langkah strategis. ARSA Technology siap menjadi mitra Anda dalam menavigasi kompleksitas ini dan mengimplementasikan solusi AI & IoT yang dapat memberikan dampak nyata bagi operasional Anda.

      Konsultasikan kebutuhan AI Anda dengan tim ARSA Technology.

HUBUNGI WHATSAPP