Mengungkap Kerentanan AI: Serangan Transferable Terhadap MLLM *Closed-Source* dengan FRA-Attack
Pelajari FRA-Attack, metode inovatif berbasis domain frekuensi yang meningkatkan serangan adversarial terhadap MLLM *closed-source*. Pahami risiko keamanan AI dan pentingnya solusi pertahanan yang kuat.
Multimodal Large Language Models (MLLM) telah merevolusi cara interaksi manusia dengan kecerdasan buatan, menawarkan kemampuan luar biasa dalam memahami dan memproses informasi dari berbagai modalitas, seperti teks, gambar, dan suara secara bersamaan. Aplikasi MLLM mencakup mulai dari pembuatan caption gambar, menjawab pertanyaan visual (VQA), hingga penalaran visual yang kompleks. Namun, di balik kemajuan pesat ini, MLLM juga menghadapi tantangan keamanan yang serius, terutama kerentanan terhadap serangan adversarial yang dapat mengganggu keandalan dan kepercayaan terhadap sistem AI ini.
Serangan adversarial adalah metode yang sengaja dirancang untuk menipu model AI agar membuat kesalahan fatal, seringkali dengan menambahkan "kebisingan" atau perubahan kecil pada data input yang tidak terlihat oleh mata manusia. Perubahan ini bisa sesederhana beberapa piksel yang diubah atau pola yang sangat halus. Khususnya untuk MLLM, yang memproses data visual melalui encoder visi, serangan ini dapat membuat model salah mengidentifikasi objek, memberikan caption yang keliru, atau bahkan mengabaikan informasi penting. Tantangan terbesarnya muncul ketika menyerang MLLM closed-source – model yang parameter internalnya tidak dapat diakses publik. Dalam skenario ini, para peneliti dan praktisi keamanan harus mengandalkan metode "serangan black-box berbasis transfer", di mana gangguan dioptimalkan pada model surrogate (open-source) dan kemudian diharapkan dapat ditransfer ke model closed-source target.
Memahami Kerentanan MLLM Terhadap Serangan Adversarial
Kerentanan MLLM terhadap serangan adversarial bermula dari bagaimana encoder visualnya memproses informasi. Model-model ini seringkali menggunakan arsitektur berbasis perhatian ( attention-based visual encoders) yang mengumpulkan patch token (bagian-bagian kecil dari gambar) untuk membentuk representasi semantik yang terstruktur. Proses ini menentukan "fokus visual intrinsik" model, yaitu area gambar yang paling ditekankan dan diintegrasikan dalam pengambilan keputusan. Agar serangan adversarial berhasil dan dapat ditransfer antar MLLM, gangguan yang dibuat harus selaras dengan fokus visual intrinsik ini. Ini berarti perubahan harus secara konsisten memengaruhi bagaimana berbagai model memandang dan menafsirkan konten visual.
Selain menyasar fokus visual intrinsik, keberhasilan transfer juga bergantung pada arah pembaruan iteratif yang digunakan dalam membuat serangan. Bahkan jika loss (fungsi kerugian) sudah selaras dengan fokus visual, gradien (gradient) dari model surrogate (model pengganti yang digunakan untuk mengembangkan serangan) dapat membawa arah yang terlalu spesifik untuk model surrogate itu sendiri. Arah spesifik ini mungkin tidak berlaku untuk encoder visi MLLM lain. Oleh karena itu, serangan yang dapat ditransfer harus memenuhi dua kondisi utama: menargetkan fokus visual intrinsik yang sama di berbagai MLLM, dan memastikan setiap langkah optimasi gradien mengikuti arah yang model-agnostic (tidak spesifik untuk satu model saja).
Tantangan Utama dalam Serangan Adversarial yang Dapat Ditransfer
Meskipun sudah ada upaya untuk menciptakan serangan adversarial yang dapat ditransfer, metode yang ada seringkali menghadapi dua kendala utama. Pertama, sebagian besar pendekatan yang ada beroperasi pada "domain spasial" (yaitu, piksel demi piksel) untuk penyelarasan fitur visual. Representasi patch spasial ini cenderung sangat redundan dan saling terkait. Mereka menekankan struktur global yang tumpang tindih dan justru menyuntikkan sinyal optimasi yang "berisik", sehingga sulit untuk mengisolasi fokus visual intrinsik yang sebenarnya relevan pada gambar target.
Kedua, selama proses optimasi iteratif, gradien surrogate membawa arah yang sangat spesifik untuk model surrogate itu sendiri. Arah ini tidak selalu sesuai dengan fokus visual intrinsik yang dibagikan antar MLLM. Akibatnya, gangguan adversarial cenderung overfit pada model surrogate, mengurangi kemampuannya untuk ditransfer ke model closed-source lain. Kedua tantangan ini menggarisbawahi kebutuhan akan representasi terpadu yang dapat secara bersamaan mengidentifikasi fokus visual intrinsik MLLM pada sisi penyelarasan dan memberikan prior yang model-agnostic pada sisi gradien.
FRA-Attack: Pendekatan Inovatif Berbasis Domain Frekuensi
Menanggapi tantangan tersebut, penelitian yang diterbitkan di arXiv (lihat Source: Frequency-Domain Regularized Adversarial Alignment for Transferable Attacks against Closed-Source MLLMs) memperkenalkan FRA-Attack. Ini adalah paradigma serangan adversarial yang ditargetkan dan dapat ditransfer, dirancang untuk meningkatkan kemampuan transfer lintas model dengan secara bersamaan memenuhi dua kondisi yang diidentifikasi sebelumnya: mengunci target penyelarasan pada fokus visual intrinsik yang dibagikan antar MLLM, dan membatasi setiap langkah gradien ke arah yang model-agnostic. Daripada mengoptimalkan representasi spesifik surrogate atau mengikuti gradien surrogate mentah, FRA-Attack merumuskan kedua aspek ini dalam ruang frequency-aware (sadar frekuensi). Di sini, dekomposisi frekuensi tunggal menyediakan alat yang terarah untuk mengatasi kedua kondisi tersebut.
FRA-Attack secara khusus memperkenalkan penyelarasan fitur sadar frekuensi pada sisi loss (kerugian) dan regulasi gradien domain frekuensi pada sisi optimasi, bersama-sama memandu gangguan menuju arah yang bermakna secara semantik dan dapat ditransfer. Solusi ini menekankan pentingnya memahami bagaimana model AI memproses informasi visual di luar sekadar piksel, untuk menciptakan sistem AI yang lebih tangguh dan aman. ARSA Technology, dengan keahliannya dalam solusi AI Video Analytics dan sistem ARSA AI API, terus berinovasi untuk menghadirkan teknologi yang memahami kompleksitas ini.
Penyelarasan Fitur Sadar Frekuensi (Sisi Loss)
Untuk penyelarasan fitur, FRA-Attack melangkah lebih jauh dari representasi domain spasial dan sebaliknya menangkap semantik visual melalui dekomposisi berbasis frekuensi. Fitur patch spasial ditransformasikan melalui Discrete Cosine Transform (DCT). DCT adalah teknik matematika yang mengubah sinyal dari domain spasial ke domain frekuensi, memisahkannya menjadi komponen-komponen frekuensi yang berbeda. Dalam konteks ini, komponen frekuensi tinggi menekankan variasi yang bermakna secara semantik sementara menekan struktur global yang redundan. Pendekatan ini mendorong gangguan untuk berfokus pada fokus visual intrinsik yang secara konsisten diperhatikan oleh berbagai model.
Dengan kata lain, daripada mencoba mengubah setiap detail pada gambar (yang bisa menjadi "kebisingan" spesifik model), FRA-Attack menggunakan DCT untuk mengidentifikasi dan memanipulasi bagian-bagian gambar yang paling relevan secara struktural dan semantik. Ini seperti menyaring percakapan di ruangan ramai untuk hanya mendengarkan suara yang paling penting, sehingga pesan adversarial menjadi lebih jelas dan lebih mungkin untuk dipahami (atau disalahpahami) oleh berbagai model AI.
Regulasi Gradien Domain Frekuensi (Sisi Gradient)
Selain itu, FRA-Attack memperkenalkan strategi regulasi gradien domain frekuensi yang model-agnostic untuk meningkatkan kemampuan transfer. Alih-alih langsung mengikuti gradien surrogate yang mentah, gradien ditafsirkan ulang dalam domain frekuensi dan secara selektif dimodulasi berdasarkan kemampuannya untuk ditransfer. Komponen frekuensi tinggi, yang mengkodekan artefak spesifik surrogate, ditekan. Sementara itu, komponen frekuensi rendah, yang menangkap fokus visual intrinsik yang dibagikan antar MLLM, dipertahankan. Ini dilakukan tanpa melibatkan statistik yang berasal dari surrogate, sehingga FGR bersifat model-agnostic sejak awal.
Strategi ini secara efektif mengarahkan optimasi adversarial menuju arah yang selaras dengan fokus visual intrinsik MLLM, sehingga mengurangi overfitting pada surrogate dan secara signifikan meningkatkan kemampuan transfer lintas model. Regulasi ini memastikan bahwa setiap langkah optimasi bukan hanya "berisik" yang hanya bekerja pada satu model, tetapi merupakan perubahan yang fundamental dan dikenali secara luas oleh banyak model AI. Ini sangat penting untuk menghadapi model closed-source di mana informasi internal tidak tersedia.
Manfaat dan Implikasi Praktis FRA-Attack
FRA-Attack secara konsisten mengungguli metode sebelumnya yang paling kuat. Eksperimen ekstensif pada 15 MLLM unggulan dari 7 vendor (OpenAI, Anthropic, Google, Meta, Moonshot, Zhipu, Alibaba) dan tiga keluarga encoder visi open-source (CLIP, AIMv2, SigLIP) menunjukkan bahwa FRA-Attack mencapai kemampuan transfer lintas model yang unggul. Ini termasuk kinerja state-of-the-art pada model-model canggih seperti GPT-5.4, Claude-Opus-4.6, dan Gemini-3-flash.
Signifikansi dari FRA-Attack adalah dua kali lipat. Pertama, hal ini menunjukkan kerentanan yang mendalam pada MLLM paling canggih sekalipun, termasuk yang closed-source, terhadap serangan adversarial yang dirancang dengan cerdas. Hal ini menyoroti pentingnya penelitian yang sedang berlangsung dalam keamanan AI dan pengembangan solusi pertahanan yang lebih kuat. Kedua, FRA-Attack menawarkan wawasan berharga tentang bagaimana model AI "melihat" dan "memahami" gambar, terutama bagaimana mereka memproses informasi dalam domain frekuensi. Dengan memahami mekanisme di balik kerentanan ini, pengembang AI dapat merancang sistem yang lebih tangguh dan aman.
Bagi perusahaan yang mengandalkan AI untuk operasi penting, seperti sistem keamanan berbasis visi atau analisis data, kerentanan seperti ini memerlukan pertimbangan serius. ARSA Technology, yang telah berpengalaman sejak 2018 dalam menyediakan solusi AI kustom dan IoT, memahami kebutuhan akan sistem AI yang andal dan aman. Membangun AI yang tidak hanya cerdas tetapi juga tangguh terhadap serangan adversarial adalah kunci untuk memastikan integritas data dan pengambilan keputusan yang akurat di berbagai industri.
Kesimpulan
Seiring dengan semakin canggihnya MLLM, kemampuan mereka untuk ditipu oleh serangan adversarial yang dapat ditransfer menjadi perhatian utama bagi keamanan AI. FRA-Attack mewakili langkah maju yang signifikan dalam bidang ini, menyediakan metode yang inovatif untuk membuat serangan yang lebih efektif dan dapat ditransfer terhadap MLLM closed-source. Dengan memanfaatkan dekomposisi domain frekuensi untuk penyelarasan fitur dan regulasi gradien, FRA-Attack tidak hanya mengungkap kelemahan MLLM tetapi juga menawarkan arah baru untuk mengembangkan pertahanan AI yang lebih kuat. Untuk perusahaan, memahami risiko ini adalah langkah pertama menuju penerapan AI yang lebih aman dan terpercaya di masa depan.
Untuk mengetahui lebih lanjut tentang bagaimana ARSA Technology dapat membantu membangun sistem AI yang kuat dan aman untuk kebutuhan spesifik Anda, silakan hubungi ARSA untuk konsultasi gratis.