Portofolio Teknologi ARSA: Sistem Pengenalan Suara Otomatis Terintegrasi untuk Botika

Written by ARSA Technology Admin

Portofolio

Ringkasan Proyek

Klien: Botika (PT Botika Teknologi Indonesia)
Kode Proyek: AR/IZ190805001
Lokasi: Surabaya, Indonesia
Sektor: AI/ML – Pengenalan Suara & Pemrosesan Bahasa
Solusi yang Diimplementasikan: Sistem ASR Terintegrasi dengan Mozilla DeepSpeech Nilai
Kontrak: ~$10.000 USD
Waktu Pelaksanaan: 30 Hari Kerja (Agustus 2019)
Platform Implementasi: Komputasi Terintegrasi (Raspberry Pi, RK3328 SoC, papan berbasis MediaTek/Allwinner/Intel)


Masalah Bisnis

Penerapan antarmuka suara dalam konteks bahasa Indonesia menghadapi hambatan kritis:

  • Ketergantungan pada cloud: Solusi ASR yang ada (Google Speech-to-Text, AWS Transcribe) memerlukan koneksi internet yang terus-menerus, yang menyebabkan latensi (300-800ms) dan biaya API berulang ($0,006-$0,024 per 15 detik).
  • Batasan model bahasa: Sistem ASR komersial memiliki kinerja yang buruk pada bahasa Indonesia, dialek regional, dan kosakata khusus bidang (akurasi <70% dalam konteks khusus).
  • Batasan privasi/keamanan: Sektor kesehatan, perbankan, dan pemerintahan tidak dapat mentransmisikan data suara ke server cloud eksternal karena persyaratan kepatuhan regulasi.
  • Batasan skalabilitas biaya: Harga API per transaksi menjadi tidak terjangkau pada skala perusahaan (>100.000 kueri bulanan)

Dampak bagi Klien: Botika memerlukan pengenalan suara Indonesia secara real-time untuk aplikasi perangkat medis tertanam di mana konektivitas cloud tidak dapat diandalkan dan privasi data pasien tidak dapat ditawar-tawar.


Arsitektur Solusi ARSA

Tumpukan Teknologi Inti

Yayasan Mozilla DeepSpeech

  • Mesin pengenalan suara ke teks sumber terbuka yang didasarkan pada penelitian Deep Speech dari Baidu.
  • Arsitektur jaringan saraf tiruan berbasis TensorFlow
  • Model akustik dan bahasa yang dapat disesuaikan untuk optimasi bahasa Indonesia

Lapisan Implementasi Kustom ARSA

1. Penelitian dan Pengembangan Elektronik; & Integrasi Perangkat Keras

  • Papan pengembangan: Platform SoC berbasis MediaTek/Allwinner/Intel
  • Target deployment: Komputer papan tunggal berbasis ARM (Raspberry Pi 3B+/4, RK3328, RK3399)
  • Perakitan rig pemrograman untuk pembaruan firmware dan pengujian sistem tertanam
  • Konfigurasi periferal: susunan mikrofon, sirkuit pemrosesan audio pra-pemrosesan

2. Lapisan Firmware/Kernel

  • Pengompilasi dan optimasi kernel yang spesifik untuk SoC
  • Konfigurasi bootloader EEPROM untuk operasi mandiri
  • Integrasi driver audio (ALSA/PulseAudio) dengan DSP yang dipercepat oleh hardware
  • Pengelolaan daya untuk skenario penerapan yang menggunakan baterai

3. Lapisan Perangkat Lunak Linux

  • Pipa pengambilan audio real-time:
    • Pengelolaan buffer berbasis PyAudio (konversi frekuensi sampling dari 44,1 kHz menjadi 16 kHz menggunakan FFmpeg)
    • Deteksi Aktivitas Suara (VAD) dengan pemicu ambang ganda:
      • preThreshold = 10Mulai merekam saat RMS melebihi nilai dasar.
      • postThreshold = 5Hentikan perekaman setelah 1 detik keheningan.
    • Segmentasi otomatis menghilangkan interaksi manual mulai/berhenti.
  • Mesin inferensi DeepSpeech:
    • Pemuatan model: Model akustik yang dilatih secara khusus output_graph.pb (model akustik) + alphabet.txt (fonem-fonem Indonesia)
    • Model bahasa: lm.binary (probabilitas n-gram) + trie (pohon prefiks kata) untuk dekoding yang sadar konteks
    • Penerjemah Beam Search (lebar=500) dengan hiperparameter alpha/beta yang disesuaikan untuk sintaksis bahasa Indonesia.
    • Ekstraksi fitur MFCC (26 koefisien, jendela konteks 9 frame)
  • Integrasi server:
    • Pengiriman hasil berbasis HTTP GET ke backend klien (/stt.php?stt=[result])
    • Arsitektur modular memungkinkan integrasi MQTT, WebSocket, atau REST API.

Alur Kerja Teknis

Audio Input → Voice Activity Detection → Recording Trigger
       ↓
Buffer Accumulation (1-sec silence timeout)
       ↓
WAV File Generation (44.1kHz) → FFmpeg Resampling (16kHz)
       ↓
DeepSpeech Inference (Acoustic Model + Language Model)
       ↓
Text Output → HTTP POST to Client Server
       ↓
[Return to Listening State]

Ciri-ciri Kinerja:

  • Konsumsi daya: 2,5-4,5 W selama inferensi aktif (cocok untuk operasi baterai)
  • Latency inferensi: 0,5-1,2 detik untuk klip audio berdurasi 3 detik (hanya CPU pada ARM Cortex-A53)
  • Akurasi: 85-92% Tingkat Kesalahan Kata (WER) pada domain kosakata Indonesia yang telah dilatih.

Nilai Strategis yang Diberikan

Keuntungan Khusus Klien

Kemandirian Operasional

  • Biaya API cloud nol setelah deployment awal
  • Operasi offline: Tidak memerlukan koneksi internet
  • Kedaulatan data: Data suara tetap disimpan di lokasi lokal, sesuai dengan peraturan kesehatan Indonesia (Undang-Undang No. 36 Tahun 2009 tentang Kesehatan, Peraturan Pemerintah No. 46 Tahun 2014 tentang Sistem Informasi Kesehatan).

Transformasi Struktur Biaya

Model PenempatanBiaya Awal100.000 Kueri Bulanan1 Juta Pertanyaan Tahunan
Google Cloud Speech$0$600-$2.400$7.200-$28.800
AWS Transcribe$0$720-$2.880$8.640-$34.560
ARSA Terintegrasi ASR~$10.000$0$0

Periode pengembalian modal: 3,1–10,5 bulan tergantung pada volume penggunaan
Penghematan TCO selama 5 tahun: $36.000–$172.000 per lokasi implementasi

Kemampuan Penyesuaian

  • Klien tetap memiliki kendali penuh atas proses retraining model.
  • Perkembangan kosakata khusus bidang (terminologi medis, nama produk, dialek regional)
  • Penyesuaian parameter inferensi tanpa ketergantungan pada vendor

Perbedaan Teknis

ARSA vs. Penyedia Layanan ASR Berbasis Awan

  • Latency: Pengurangan 50-80% (menghilangkan waktu tempuh jaringan)
  • Privasi: 100% pemrosesan di perangkat
  • Prediktabilitas biaya: Biaya modal tetap (CAPEX) versus biaya operasional variabel (OPEX)

ARSA versus Implementasi DeepSpeech Generik

  • Integrasi terintegrasi siap pakai (perangkat keras + firmware + perangkat lunak)
  • Model bahasa Indonesia pra-pelatihan
  • Sistem VAD dan alur kerja audio yang siap produksi (bukan prototipe penelitian)
  • Pengiriman dalam 30 hari vs. siklus pengembangan internal selama 6-12 bulan

ARSA vs. Sistem Pengenalan Suara Terintegrasi Proprietary (misalnya, Nuance, Sensory)

  • Biaya lisensi 70-85% lebih rendah
  • Fondasi sumber terbuka memfasilitasi perbaikan berkelanjutan.
  • Tidak ada ketergantungan pada vendor untuk pembaruan model atau migrasi platform.

Struktur Pelaksanaan Proyek

Rincian Hasil Pekerjaan

Penelitian dan Pengembangan Elektronik;

  • Pengadaan papan pengembangan: Papan berbasis MediaTek/Allwinner/Intel
  • Perakitan rig pemrograman: rig pemrograman/pengujian kustom
  • Tujuan: Validasi perangkat keras, pengujian kompatibilitas SoC, pengembangan prototipe produksi.

Pengembangan Firmware/Kernel

  • Konfigurasi kernel SoC untuk pengelolaan periferal (I2C, SPI, GPIO, codec audio)
  • Bootloader EEPROM untuk urutan booting mandiri
  • Integrasi driver untuk sensor/aktuator perangkat keras khusus klien

Integrasi Perangkat Lunak Linux

  • Pelatihan model DeepSpeech pada korpus bahasa Indonesia (komponen nilai utama)
  • Pipa inferensi waktu nyata dengan VAD
  • Aplikasi demo dengan antarmuka pengguna grafis (GUI) untuk validasi klien
  • Dokumentasi: Spesifikasi API, panduan implementasi, tutorial retraining model

Jadwal Waktu & Tonggak Penting

TonggakDurasiHari-hari
Perakitan Rig PemrogramanMinggu 11-5
Konfigurasi KernelMinggu 26-10
Pengembangan Integrasi DeepSpeechMinggu 3-411-20
Iterasi Pengujian PerangkatMinggu 5-621-30

Manajemen Proyek:

  • Pembaruan kemajuan mingguan melalui email/panggilan video
  • Pengujian berulang dengan integrasi umpan balik klien
  • Uang muka 50%, 50% setelah pengiriman

Penjelajahan Teknis Mendalam: Tantangan ASR di Indonesia

Batasan Penempatan Terintegrasi

Optimasi Platform ARM:

  • Inferensi CPU (tanpa GPU/NPU): Prosesor 4-inti ARM Cortex-A53 dengan kecepatan 1,2-1,5 GHz
  • Persyaratan RAM: 1-2GB (pemuatan model + buffer inferensi)
  • Penyimpanan: 500MB-1GB (berkas model + dependensi)
  • Pengelolaan termal: Pendinginan pasif yang cukup untuk operasi berkelanjutan.

Kinerja Real-Time:

  • Target: <1,5 kali faktor waktu nyata (1 detik audio → <1,5 detik pemrosesan)
  • Tercapai: 0,5-1,2× RTF pada Raspberry Pi 3B+, 0,3-0,8× RTF pada RK3399
  • Teknik optimasi: Kuantisasi (FP32 → INT8), Akselerasi NEON SIMD

Implikasi Strategis bagi ARSA

Demonstrasi Kemampuan

R&D; Kredibilitas:

  • Kemampuan yang teruji untuk mengadaptasi penelitian AI terdepan (DeepSpeech) ke dalam sistem tertanam produksi.
  • Pelaksanaan lintas disiplin: elektronika, firmware, pelatihan model ML, rekayasa perangkat lunak Linux
  • Spesialisasi kecerdasan buatan (AI) dalam bahasa Indonesia (keahlian langka di pasar regional)

Keahlian Integrasi Perusahaan:

  • Desain terpadu perangkat keras dan perangkat lunak untuk platform tertanam dengan sumber daya terbatas
  • Penyesuaian khusus sesuai kebutuhan klien dalam batas waktu dan anggaran yang telah ditentukan.
  • Kesiapan implementasi produksi (bukan hanya prototipe penelitian)

Kesimpulan

Proyek Embedded ASR ARSA untuk Botika mewakili penyediaan layanan AI bernilai tinggi: menggabungkan fondasi sumber terbuka (Mozilla DeepSpeech) dengan keahlian mendalam di bidang tertentu (bahasa Indonesia, integrasi sistem tertanam) untuk mengatasi kasus penggunaan yang sensitif terhadap privasi dan biaya.

Keunggulan Utama:

  • Waktu pengembalian modal 3-10 bulan vs. alternatif cloud untuk klien
ARSA Technology White Logo

Legal Name:
PT Trisaka Arsa Caraka
NIB – 9120113130218

Head Office – Surabaya
Tenggilis Mejoyo, Surabaya
Jawa Timur, Indonesia
60299

R&D Facility – Yogyakarta
Jl. Palagan Tentara Pelajar KM. 13, Ngaglik, Kab. Sleman, DI Yogyakarta, Indonesia 55581

ID
IDBahasa IndonesiaENEnglish