Tren Terbaru dalam Model AI Global: DeepSeek R1 dan Spekulasi Data Training

      Dunia kecerdasan buatan (AI) terus bergerak cepat, dengan perusahaan dan laboratorium riset di seluruh dunia berlomba menciptakan model AI yang semakin canggih. Pekan lalu, laboratorium asal Tiongkok, DeepSeek, merilis pembaruan untuk model AI penalaran (reasoning) mereka, R1. Model ini menunjukkan kinerja yang sangat baik dalam berbagai benchmark matematika dan coding, menarik perhatian para ahli.

      Namun, DeepSeek tidak merinci sumber data yang digunakan untuk melatih model R1 terbaru ini. Hal ini memicu spekulasi di kalangan peneliti AI, dengan beberapa pihak menduga bahwa setidaknya sebagian data training berasal dari keluarga model AI milik Google, yaitu Gemini. Isu ini menyoroti kompleksitas dan tantangan seputar sumber data dan etika dalam pengembangan AI yang semakin maju.

Bukti dan Spekulasi Awal dari Para Developer

      Spekulasi mengenai penggunaan data Gemini oleh DeepSeek R1 pertama kali diungkap oleh Sam Paech, seorang developer asal Melbourne yang fokus pada evaluasi “kecerdasan emosional” AI. Melalui posting di platform X (sebelumnya Twitter), Paech mempublikasikan apa yang diklaimnya sebagai bukti bahwa model R1-0528 milik DeepSeek dilatih menggunakan output dari Gemini.

      Menurut Paech, model DeepSeek R1-0528 cenderung menggunakan kata-kata dan ekspresi yang sangat mirip dengan yang disukai oleh Google Gemini 2.5 Pro. Ini bukan “bukti tak terbantahkan” (smoking gun), tetapi cukup untuk menimbulkan kecurigaan. Developer lain, yang dikenal dengan nama samaran SpeechMap, pencipta alat evaluasi “free speech” untuk AI, juga mencatat bahwa “jejak” (traces) atau “pikiran” yang dihasilkan model DeepSeek saat memproses informasi menuju kesimpulan “terlihat seperti jejak Gemini.”

Riwayat dan Tuduhan Sebelumnya

      Ini bukan pertama kalinya DeepSeek dituduh menggunakan data training dari model AI pesaing. Pada bulan Desember tahun lalu, para developer mengamati bahwa model DeepSeek V3 sering mengidentifikasi dirinya sebagai ChatGPT, platform chatbot AI milik OpenAI. Hal ini mengindikasikan kemungkinan model tersebut dilatih menggunakan log percakapan dari ChatGPT.

      Lebih lanjut, awal tahun ini OpenAI menyampaikan kepada Financial Times bahwa mereka menemukan bukti yang mengaitkan DeepSeek dengan penggunaan teknik “distillation”. Distillation adalah metode melatih model AI yang lebih kecil dengan mengekstraksi data dari model AI yang lebih besar dan lebih mumpuni. Menurut laporan Bloomberg, Microsoft, mitra dekat dan investor OpenAI, mendeteksi adanya sejumlah besar data yang bocor melalui akun developer OpenAI pada akhir tahun 2024, yang diyakini OpenAI berafiliasi dengan DeepSeek.

Tantangan “AI Slop” dan Data Training

      Perlu dicatat bahwa banyak model AI memang sering salah mengidentifikasi diri atau menggunakan frasa yang sama. Ini sebagian besar disebabkan oleh fakta bahwa web terbuka, yang menjadi sumber utama data training bagi perusahaan AI, semakin “terkontaminasi” oleh konten yang dihasilkan AI itu sendiri, atau sering disebut “AI slop”.

      Banyak konten farm dan bot kini menggunakan AI untuk membuat artikel clickbait atau membanjiri platform seperti Reddit dan X. Kontaminasi ini membuat proses penyaringan output AI dari dataset training menjadi sangat sulit. Meskipun demikian, para ahli AI seperti Nathan Lambert, seorang peneliti di institut riset nirlaba AI2, berpendapat bahwa kemungkinan DeepSeek melatih modelnya dengan data dari Google Gemini bukanlah hal yang mustahil. Lambert menyatakan bahwa jika ia menjadi DeepSeek, ia pasti akan membuat “ton” data sintetis dari model API terbaik yang tersedia, terutama mengingat DeepSeek memiliki sumber daya finansial tetapi mungkin terbatas pada ketersediaan GPU (Graphic Processing Unit) untuk training skala besar. Menggunakan output model lain secara efektif bisa dianggap sebagai cara mendapatkan “komputasi” tambahan.

Upaya Perusahaan AI dalam Pengamanan Data

      Sebagai respons, sebagian untuk mencegah praktik distillation dan penggunaan data training yang tidak sah, perusahaan AI besar telah meningkatkan langkah-langkah keamanan. Pada bulan April, OpenAI mulai mewajibkan organisasi untuk menyelesaikan proses verifikasi identitas (ID verification) guna mengakses model-model canggih tertentu. Proses ini memerlukan identitas yang dikeluarkan pemerintah dari salah satu negara yang didukung oleh API OpenAI; Tiongkok saat ini tidak termasuk dalam daftar tersebut.

      Di sisi lain, Google baru-baru ini mulai “meringkas” jejak (traces) yang dihasilkan oleh model-model yang tersedia melalui platform developer AI Studio mereka. Langkah ini membuat proses melatih model pesaing yang performanya tinggi menggunakan jejak Gemini menjadi lebih sulit. Anthropic, perusahaan AI lain, pada bulan Mei juga menyatakan akan mulai meringkas jejak model mereka, dengan alasan perlunya melindungi “keunggulan kompetitif” mereka.

Implikasi Bagi Industri dan Bisnis di Indonesia

      Isu penggunaan data training lintas platform ini memiliki implikasi penting bagi industri dan bisnis di Indonesia. Di tengah pesatnya adopsi teknologi AI dan IoT, memilih mitra teknologi yang tepat menjadi krusial. Perusahaan perlu memastikan bahwa solusi AI yang mereka gunakan dibangun di atas fondasi data yang sah, etis, dan aman.

      Keamanan data dan kekayaan intelektual adalah perhatian utama. Jika model AI dilatih menggunakan data atau output dari model lain tanpa izin, ini bisa menimbulkan risiko hukum dan etika. Bagi bisnis di Indonesia yang ingin memanfaatkan analitik video AI, sistem kendaraan cerdas, atau otomasi industri & monitoring, penting untuk bekerja sama dengan penyedia solusi yang transparan mengenai sumber data dan metode training mereka.

Bagaimana ARSA Technology Dapat Membantu?

      Sebagai perusahaan teknologi lokal yang berpengalaman sejak 2018 dan berbasis di Indonesia (Surabaya, Yogyakarta), ARSA Technology berkomitmen untuk menyediakan solusi AI dan IoT yang dibangun dengan standar etika dan keamanan data yang tinggi. Kami mengembangkan model AI kami secara internal, menggunakan dataset yang dikumpulkan atau dilisensikan secara sah, serta menerapkan praktik terbaik dalam proses training.

      Solusi kami, mulai dari teknologi kesehatan mandiri hingga pelatihan berbasis VR, dirancang untuk memberikan dampak nyata bagi bisnis di berbagai sektor industri di Indonesia, tanpa mengorbankan integritas data atau menimbulkan risiko hukum yang tidak perlu terkait sumber model. Kami fokus pada pengembangan teknologi yang relevan dengan tantangan lokal, didukung oleh tim R&D yang berdedikasi.

Kesimpulan

      Spekulasi seputar data training DeepSeek R1 dan Gemini Google underscores kompleksitas dan tantangan yang dihadapi industri AI global saat ini, terutama terkait sumber data training, etika, dan keamanan. Fenomena “AI slop” di web terbuka semakin memperumit masalah ini, mendorong perusahaan AI besar untuk meningkatkan langkah pengamanan data.

      Bagi bisnis di Indonesia, isu ini menjadi pengingat penting untuk memilih mitra teknologi yang terpercaya dan transparan. Memastikan bahwa solusi AI yang diadopsi berasal dari sumber yang sah dan dikembangkan secara etis adalah kunci untuk membangun transformasi digital yang berkelanjutan dan aman.

      Konsultasikan kebutuhan AI Anda dengan tim ARSA Technology untuk mendapatkan solusi yang teruji dan terpercaya.

Konsultasi gratis

HUBUNGI WHATSAPP