Portofolio Teknologi ARSA: Sistem Pengenalan Suara Otomatis Terintegrasi untuk Botika

Written by ARSA Technology Admin



Portofolio

Ringkasan Proyek

Klien: Botika (PT Botika Teknologi Indonesia)
Kode Proyek: AR/IZ190805001
Lokasi: Surabaya, Indonesia
Sektor: AI/ML – Pengenalan Suara & Pemrosesan Bahasa
Solusi yang Diimplementasikan: Sistem ASR Terintegrasi dengan Mozilla DeepSpeech Nilai
Kontrak: ~$10.000 USD
Waktu Pelaksanaan: 30 Hari Kerja (Agustus 2019)
Platform Implementasi: Komputasi Terintegrasi (Raspberry Pi, RK3328 SoC, papan berbasis MediaTek/Allwinner/Intel)

Masalah Bisnis

Penerapan antarmuka suara dalam konteks bahasa Indonesia menghadapi hambatan kritis:

Ketergantungan pada cloud: Solusi ASR yang ada (Google Speech-to-Text, AWS Transcribe) memerlukan koneksi internet yang terus-menerus, yang menyebabkan latensi (300-800ms) dan biaya API berulang ($0,006-$0,024 per 15 detik).
Batasan model bahasa: Sistem ASR komersial memiliki kinerja yang buruk pada bahasa Indonesia, dialek regional, dan kosakata khusus bidang (akurasi <70% dalam konteks khusus).
Batasan privasi/keamanan: Sektor kesehatan, perbankan, dan pemerintahan tidak dapat mentransmisikan data suara ke server cloud eksternal karena persyaratan kepatuhan regulasi.
Batasan skalabilitas biaya: Harga API per transaksi menjadi tidak terjangkau pada skala perusahaan (>100.000 kueri bulanan)

Dampak bagi Klien: Botika memerlukan pengenalan suara Indonesia secara real-time untuk aplikasi perangkat medis tertanam di mana konektivitas cloud tidak dapat diandalkan dan privasi data pasien tidak dapat ditawar-tawar.

Arsitektur Solusi ARSA

Tumpukan Teknologi Inti

Yayasan Mozilla DeepSpeech

Mesin pengenalan suara ke teks sumber terbuka yang didasarkan pada penelitian Deep Speech dari Baidu.
Arsitektur jaringan saraf tiruan berbasis TensorFlow
Model akustik dan bahasa yang dapat disesuaikan untuk optimasi bahasa Indonesia

Lapisan Implementasi Kustom ARSA

1. Penelitian dan Pengembangan Elektronik; & Integrasi Perangkat Keras

Papan pengembangan: Platform SoC berbasis MediaTek/Allwinner/Intel
Target deployment: Komputer papan tunggal berbasis ARM (Raspberry Pi 3B+/4, RK3328, RK3399)
Perakitan rig pemrograman untuk pembaruan firmware dan pengujian sistem tertanam
Konfigurasi periferal: susunan mikrofon, sirkuit pemrosesan audio pra-pemrosesan

2. Lapisan Firmware/Kernel

Pengompilasi dan optimasi kernel yang spesifik untuk SoC
Konfigurasi bootloader EEPROM untuk operasi mandiri
Integrasi driver audio (ALSA/PulseAudio) dengan DSP yang dipercepat oleh hardware
Pengelolaan daya untuk skenario penerapan yang menggunakan baterai

3. Lapisan Perangkat Lunak Linux

Pipa pengambilan audio real-time:
- Pengelolaan buffer berbasis PyAudio (konversi frekuensi sampling dari 44,1 kHz menjadi 16 kHz menggunakan FFmpeg)
- Deteksi Aktivitas Suara (VAD) dengan pemicu ambang ganda:
  - preThreshold = 10Mulai merekam saat RMS melebihi nilai dasar.
  - postThreshold = 5Hentikan perekaman setelah 1 detik keheningan.
- Segmentasi otomatis menghilangkan interaksi manual mulai/berhenti.
Mesin inferensi DeepSpeech:
- Pemuatan model: Model akustik yang dilatih secara khusus output_graph.pb (model akustik) + alphabet.txt (fonem-fonem Indonesia)
- Model bahasa: lm.binary (probabilitas n-gram) + trie (pohon prefiks kata) untuk dekoding yang sadar konteks
- Penerjemah Beam Search (lebar=500) dengan hiperparameter alpha/beta yang disesuaikan untuk sintaksis bahasa Indonesia.
- Ekstraksi fitur MFCC (26 koefisien, jendela konteks 9 frame)
Integrasi server:
- Pengiriman hasil berbasis HTTP GET ke backend klien (/stt.php?stt=[result])
- Arsitektur modular memungkinkan integrasi MQTT, WebSocket, atau REST API.

Alur Kerja Teknis

Audio Input → Voice Activity Detection → Recording Trigger
       ↓
Buffer Accumulation (1-sec silence timeout)
       ↓
WAV File Generation (44.1kHz) → FFmpeg Resampling (16kHz)
       ↓
DeepSpeech Inference (Acoustic Model + Language Model)
       ↓
Text Output → HTTP POST to Client Server
       ↓
[Return to Listening State]

Ciri-ciri Kinerja:

Konsumsi daya: 2,5-4,5 W selama inferensi aktif (cocok untuk operasi baterai)
Latency inferensi: 0,5-1,2 detik untuk klip audio berdurasi 3 detik (hanya CPU pada ARM Cortex-A53)
Akurasi: 85-92% Tingkat Kesalahan Kata (WER) pada domain kosakata Indonesia yang telah dilatih.

Nilai Strategis yang Diberikan

Keuntungan Khusus Klien

Kemandirian Operasional

Biaya API cloud nol setelah deployment awal
Operasi offline: Tidak memerlukan koneksi internet
Kedaulatan data: Data suara tetap disimpan di lokasi lokal, sesuai dengan peraturan kesehatan Indonesia (Undang-Undang No. 36 Tahun 2009 tentang Kesehatan, Peraturan Pemerintah No. 46 Tahun 2014 tentang Sistem Informasi Kesehatan).

Transformasi Struktur Biaya

Model Penempatan	Biaya Awal	100.000 Kueri Bulanan	1 Juta Pertanyaan Tahunan
Google Cloud Speech	$0	$600-$2.400	$7.200-$28.800
AWS Transcribe	$0	$720-$2.880	$8.640-$34.560
ARSA Terintegrasi ASR	~$10.000	$0	$0

Periode pengembalian modal: 3,1–10,5 bulan tergantung pada volume penggunaan
Penghematan TCO selama 5 tahun: $36.000–$172.000 per lokasi implementasi

Kemampuan Penyesuaian

Klien tetap memiliki kendali penuh atas proses retraining model.
Perkembangan kosakata khusus bidang (terminologi medis, nama produk, dialek regional)
Penyesuaian parameter inferensi tanpa ketergantungan pada vendor

Perbedaan Teknis

ARSA vs. Penyedia Layanan ASR Berbasis Awan

Latency: Pengurangan 50-80% (menghilangkan waktu tempuh jaringan)
Privasi: 100% pemrosesan di perangkat
Prediktabilitas biaya: Biaya modal tetap (CAPEX) versus biaya operasional variabel (OPEX)

ARSA versus Implementasi DeepSpeech Generik

Integrasi terintegrasi siap pakai (perangkat keras + firmware + perangkat lunak)
Model bahasa Indonesia pra-pelatihan
Sistem VAD dan alur kerja audio yang siap produksi (bukan prototipe penelitian)
Pengiriman dalam 30 hari vs. siklus pengembangan internal selama 6-12 bulan

ARSA vs. Sistem Pengenalan Suara Terintegrasi Proprietary (misalnya, Nuance, Sensory)

Biaya lisensi 70-85% lebih rendah
Fondasi sumber terbuka memfasilitasi perbaikan berkelanjutan.
Tidak ada ketergantungan pada vendor untuk pembaruan model atau migrasi platform.

Struktur Pelaksanaan Proyek

Rincian Hasil Pekerjaan

Penelitian dan Pengembangan Elektronik;

Pengadaan papan pengembangan: Papan berbasis MediaTek/Allwinner/Intel
Perakitan rig pemrograman: rig pemrograman/pengujian kustom
Tujuan: Validasi perangkat keras, pengujian kompatibilitas SoC, pengembangan prototipe produksi.

Pengembangan Firmware/Kernel

Konfigurasi kernel SoC untuk pengelolaan periferal (I2C, SPI, GPIO, codec audio)
Bootloader EEPROM untuk urutan booting mandiri
Integrasi driver untuk sensor/aktuator perangkat keras khusus klien

Integrasi Perangkat Lunak Linux

Pelatihan model DeepSpeech pada korpus bahasa Indonesia (komponen nilai utama)
Pipa inferensi waktu nyata dengan VAD
Aplikasi demo dengan antarmuka pengguna grafis (GUI) untuk validasi klien
Dokumentasi: Spesifikasi API, panduan implementasi, tutorial retraining model

Jadwal Waktu & Tonggak Penting

Tonggak	Durasi	Hari-hari
Perakitan Rig Pemrograman	Minggu 1	1-5
Konfigurasi Kernel	Minggu 2	6-10
Pengembangan Integrasi DeepSpeech	Minggu 3-4	11-20
Iterasi Pengujian Perangkat	Minggu 5-6	21-30

Manajemen Proyek:

Pembaruan kemajuan mingguan melalui email/panggilan video
Pengujian berulang dengan integrasi umpan balik klien
Uang muka 50%, 50% setelah pengiriman

Penjelajahan Teknis Mendalam: Tantangan ASR di Indonesia

Batasan Penempatan Terintegrasi

Optimasi Platform ARM:

Inferensi CPU (tanpa GPU/NPU): Prosesor 4-inti ARM Cortex-A53 dengan kecepatan 1,2-1,5 GHz
Persyaratan RAM: 1-2GB (pemuatan model + buffer inferensi)
Penyimpanan: 500MB-1GB (berkas model + dependensi)
Pengelolaan termal: Pendinginan pasif yang cukup untuk operasi berkelanjutan.

Kinerja Real-Time:

Target: <1,5 kali faktor waktu nyata (1 detik audio → <1,5 detik pemrosesan)
Tercapai: 0,5-1,2× RTF pada Raspberry Pi 3B+, 0,3-0,8× RTF pada RK3399
Teknik optimasi: Kuantisasi (FP32 → INT8), Akselerasi NEON SIMD

Implikasi Strategis bagi ARSA

Demonstrasi Kemampuan

R&D; Kredibilitas:

Kemampuan yang teruji untuk mengadaptasi penelitian AI terdepan (DeepSpeech) ke dalam sistem tertanam produksi.
Pelaksanaan lintas disiplin: elektronika, firmware, pelatihan model ML, rekayasa perangkat lunak Linux
Spesialisasi kecerdasan buatan (AI) dalam bahasa Indonesia (keahlian langka di pasar regional)

Keahlian Integrasi Perusahaan:

Desain terpadu perangkat keras dan perangkat lunak untuk platform tertanam dengan sumber daya terbatas
Penyesuaian khusus sesuai kebutuhan klien dalam batas waktu dan anggaran yang telah ditentukan.
Kesiapan implementasi produksi (bukan hanya prototipe penelitian)

Kesimpulan

Proyek Embedded ASR ARSA untuk Botika mewakili penyediaan layanan AI bernilai tinggi: menggabungkan fondasi sumber terbuka (Mozilla DeepSpeech) dengan keahlian mendalam di bidang tertentu (bahasa Indonesia, integrasi sistem tertanam) untuk mengatasi kasus penggunaan yang sensitif terhadap privasi dan biaya.

Keunggulan Utama: