Studi Inovatif: Bagaimana Distilasi Pengetahuan Mempengaruhi Keamanan LLM Multibahasa

Temukan hasil mengejutkan dari studi tentang Distilasi Pengetahuan untuk mencegah "jailbreak" pada LLM multibahasa. Pahami dampaknya pada keamanan dan penalaran AI.

Studi Inovatif: Bagaimana Distilasi Pengetahuan Mempengaruhi Keamanan LLM Multibahasa

Memahami Ancaman "Jailbreak" Multibahasa pada LLM

      Model bahasa besar (LLM) semakin banyak digunakan secara global, mendorong berbagai aplikasi mulai dari layanan pelanggan hingga pembuatan konten kreatif. Namun, di balik kemajuan ini, ada kesenjangan signifikan dalam hal keamanan dan penyelarasan etika, terutama untuk bahasa selain Inggris. Sebagian besar mekanisme keamanan LLM dirancang dengan fokus utama pada bahasa Inggris dan bahasa dengan sumber daya tinggi, meninggalkan kerentanan serius pada bahasa dengan sumber daya rendah.

      Kerentanan ini memungkinkan apa yang disebut "jailbreak"—upaya untuk mengakali batasan keamanan LLM dan memancing model untuk menghasilkan konten yang tidak aman atau tidak diinginkan. Penelitian sebelumnya menunjukkan bahwa menerjemahkan perintah berbahaya dari bahasa Inggris ke bahasa lain, terutama bahasa dengan sumber daya rendah, dapat lebih mudah melewati pertahanan keamanan yang kuat. Hal ini menimbulkan tantangan besar bagi organisasi yang ingin menerapkan LLM secara bertanggung jawab dalam skala global.

Distilasi Pengetahuan (Knowledge Distillation): Solusi yang Tidak Terduga?

      Untuk mengatasi masalah ini secara efisien, metode seperti distilasi pengetahuan (Knowledge Distillation/KD) telah menarik perhatian. KD secara tradisional digunakan untuk mengompres model AI yang lebih besar dan kompleks (model "guru") menjadi model yang lebih kecil dan lebih cepat (model "siswa") sambil mempertahankan sebagian besar kinerjanya. Namun, penelitian baru-baru ini menjajaki potensi KD untuk mentransfer sifat-sifat yang lebih abstrak, seperti kemampuan penalaran dan ketahanan terhadap serangan siber, ke model siswa.

      Dalam konteks keamanan, KD dipandang sebagai rute yang menjanjikan untuk menyelaraskan model multibahasa, terutama karena teknik pelatihan keselamatan tradisional seperti supervised fine-tuning (SFT) dan reinforcement learning from human feedback (RLHF) terlalu mahal dan tidak efisien untuk diterapkan pada ribuan bahasa. Konsepnya adalah jika model guru yang aman dapat mengajarkan model siswa untuk menolak permintaan berbahaya dalam berbagai bahasa, ini akan menjadi langkah maju yang signifikan.

Pendekatan Studi: Mengajar Model AI untuk "Menolak"

      Sebuah studi inovatif oleh Zhang et al. (2025) mengeksplorasi aplikasi novel distilasi pengetahuan berbasis respons yang digabungkan dengan Parameter-Efficient Fine-Tuning (PEFT) menggunakan Low-Rank Adaptation (LoRA) untuk pencegahan "jailbreak" multibahasa (Source: Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety). Pendekatan ini bertujuan untuk mentransfer perilaku penolakan yang kuat dari model guru milik perusahaan (OpenAI o1-mini) ke tiga model siswa sumber terbuka: Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT, dan Qwen3-8B.

      Prosesnya melibatkan lima tahap utama: pertama, pengumpulan sekitar 28.000 prompt "jailbreak" multibahasa dari dataset XSAFETY yang mencakup 10 bahasa berbeda. Kedua, prompt ini dimasukkan ke model guru, yang menghasilkan respons penolakan yang aman. Ketiga, prompt dan respons penolakan model guru dipasangkan untuk membuat dataset distilasi. Keempat, model siswa disesuaikan (fine-tuned) menggunakan LoRA PEFT pada dataset ini. Terakhir, keamanan model yang telah disesuaikan dievaluasi menggunakan benchmark MULTIJAIL, dengan respons dinilai oleh GPT-4o.

Penemuan Mengejutkan: Peningkatan Kerentanan Keamanan

      Secara intuitif, seseorang akan mengharapkan bahwa melatih model siswa pada data penolakan yang "aman" dari model guru akan meningkatkan mekanisme keamanannya. Namun, studi ini mengungkapkan perilaku yang sangat berlawanan: penyelarasan standar pada data penolakan "aman" dari model guru secara tidak sengaja meningkatkan Tingkat Keberhasilan Jailbreak (Jailbreak Success Rate/JSR) untuk semua model siswa. Peningkatan JSR ini mencapai hingga 16,6 poin persentase, menunjukkan penurunan signifikan dalam ketahanan model terhadap serangan.

      Penemuan ini menjadi peringatan penting bagi para pengembang dan praktisi AI. Ini menunjukkan bahwa transfer pengetahuan dalam konteks keamanan multibahasa tidak selalu sesederhana yang diasumsikan dan dapat memperkenalkan kerentanan yang tidak terduga. Untuk organisasi yang mengandalkan LLM dalam operasi penting, memahami dinamika ini sangat krusial untuk mencegah penurunan keamanan yang tidak disengaja.

Analisis Kegagalan dan Dampak Terhadap Kinerja Penalaran

      Studi tersebut melakukan analisis kegagalan menyeluruh dan mengidentifikasi tiga faktor yang saling terkait yang berkontribusi pada degradasi keamanan ini. Pertama adalah data penolakan "batas" yang bernuansa. Ini adalah respons dari model guru yang, meskipun dianggap "aman," mungkin berada di ambang batas antara penolakan dan kepatuhan, sehingga membingungkan model siswa dan membuatnya lebih rentan. Kedua, adanya amplifikasi kerentanan model guru, di mana model siswa mungkin mewarisi atau bahkan memperkuat kelemahan yang ada pada model yang lebih besar.

      Ketiga, studi ini juga mencatat fenomena catastrophic forgetting, di mana model siswa melupakan pengetahuan atau kemampuan keamanan yang telah dipelajari sebelumnya saat mereka beradaptasi dengan data baru dari proses distilasi. Selain itu, studi ini mengkuantifikasi adanya trade-off dalam kemampuan penalaran model. Meskipun ada upaya untuk meningkatkan keamanan, kinerja penalaran model, yang diukur dengan benchmark GSM8K, mengalami penurunan. Hal ini menunjukkan bahwa ada keseimbangan yang rumit antara berbagai atribut kinerja dalam model AI.

Langkah Awal Menuju Perbaikan: Pemurnian Data

      Melihat hasil yang tidak diinginkan, para peneliti melakukan percobaan pemurnian data pendahuluan. Mereka mengidentifikasi dan menghapus sumber utama degradasi keamanan—yaitu, data penolakan "batas" yang bernuansa. Dengan menghilangkan jenis data ini, studi tersebut berhasil mengurangi atau bahkan membalikkan penurunan keamanan pada model siswa, menurunkan JSR untuk dua dari model yang diuji. Ini menunjukkan bahwa kualitas dan jenis data yang digunakan dalam distilasi sangat penting dan dapat memiliki dampak signifikan pada hasil.

      Meskipun pemurnian data ini berhasil meningkatkan keamanan, trade-off dalam kinerja penalaran tetap ada. Ini berarti bahwa meskipun dimungkinkan untuk meningkatkan ketahanan model terhadap "jailbreak" melalui penyesuaian data, tantangan untuk mempertahankan atau meningkatkan kemampuan penalaran secara bersamaan masih menjadi area penelitian aktif. Untuk penyedia solusi AI khusus seperti ARSA Technology, penemuan ini menekankan pentingnya kurasi data yang cermat dan strategi penyelarasan yang berkelanjutan.

Implikasi Praktis dan Arah Penelitian Masa Depan

      Studi ini menyoroti kompleksitas dan tantangan dalam menerapkan teknik distilasi pengetahuan untuk penyelarasan keamanan multibahasa pada LLM. Meskipun distilasi pengetahuan menawarkan rute yang menjanjikan untuk mencapai tujuan ini dengan biaya lebih rendah, pelaksanaannya memerlukan pemahaman mendalam tentang bagaimana pengetahuan ditransfer dan bagaimana hal itu dapat secara tidak sengaja mengikis sifat-sifat penting lainnya. Untuk perusahaan yang mengintegrasikan AI ke dalam operasi mereka, penting untuk memahami bahwa penyelarasan keamanan multibahasa membutuhkan pendekatan yang lebih dari sekadar "menerjemahkan" solusi yang ada.

      ARSA Technology, yang telah berpengalaman sejak 2018 dalam menyediakan solusi AI dan IoT untuk berbagai industri, memahami nuansa ini. Kami secara proaktif menggabungkan temuan penelitian terbaru ke dalam pengembangan dan implementasi produk kami, seperti analitik video AI dan platform edge AI. Hal ini untuk memastikan bahwa solusi yang kami tawarkan tidak hanya inovatif dan efisien, tetapi juga aman dan andal dalam konteks multibahasa dan multi-budaya. Studi eksplorasi ini meletakkan dasar bagi penelitian di masa depan, mendorong pengembangan teknik KD yang lebih canggih yang dapat menyeimbangkan keamanan, penalaran, dan efisiensi di seluruh spektrum bahasa.

      Untuk lebih memahami bagaimana teknologi AI yang aman dan andal dapat diterapkan dalam konteks bisnis Anda, kami mengundang Anda untuk menjelajahi solusi kami.

Hubungi tim ARSA untuk konsultasi gratis dan diskusikan kebutuhan Anda.

      Source: Zhang, M., Liu, D., Zhang, K., Franco, J., Liu, H., & Zhu, K. (2025). Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety. 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Presented and published at NeurIPS 2025 ResponsibleFM Workshop. https://arxiv.org/abs/2602.11157