Speech recognition adalah proses konversi
sebuah sinyal akustik, yang ditangkap oleh microphone atau telepon, untuk
merangkai kata kata. Kata–kata yang dikenali merupakan hasil akhir untuk sebuah
aplikasi seperti command & control, penginputan data, dan persiapan
dokumen. Kita hanya perlu mengatakan perintah dengan bahasa inggris lalu
komputer akan menjalankan perintah kita. Hal ini juga bisa dilakukan untuk
pengetikan. Speech Recognition di windows 7 membuat kita bisa memerintah PC dengan
suara kita untuk mendikte hampir ke berbagai aplikasi.
Lalu bagaimana sebenarnya awal mula ditemukan
teknologi speech recognition ini?
1874 :
Alexander Graham Bell berhasil membuktikkan
bahwa frekuensi harmoni dari sebuah sinyal elektrik dapat dibagi-bagi yang
kemudian hari berlanjut pada digitalisasi ucapan.
1952 :
Bell Labs mengembangkan speech recognizer
pertama dengan menggunakan teknologi pemisah frekuensi yang serupa dengan
teknologi yang dikembangkan oleh Alexander Graham Bell.
1971-1976 :
Defence Advance Research Project Agency
dibentuk yang merupakan proyek riset dengan dana dari pemerintah AS. Tujuan
dari proyek ini adalah untuk melakukan penelitian teknologi speech recognition.
Penemuan terbesar yang dihasilkan proyek ini adalah peningkatan dalam menekan
permasalahan variabilitas suara. Pada rentang tahun yang sama pula ditemukan :
- Pemrograman dinamik oleh tiga peneliti asal Jepang, Itakura, Skoe, dan Chiba yang dikemudian hari menjadi dasar bagi deret waktu non-linier.
- Pemodelan Makov oleh Jim Baker dan Fred Jelinek dari IBM yang merupakan pemodelan untuk menentukan letak informasi tetap dalam sebuah sinyal wicara (speech signal).
Pertengahan tahun 1970-an :
Itakura mengadakan sebuah riset untuk
mengembangkan sebuah produk yang berbasis pada asumsi bahwa noise itu walaupun
terdengar sama namun pada kenyataannya tidak demikian. Produk tersebut
akurasinya mencapai 97,3% saat diuji menggunakan 200 kosakata.
Bell Labs mengembangkan sistem yang mampu
mengenali suara dari orang-orang yang berbeda dengan akurasi hingga 97,1%.
Akhir 1970-an :
Produk speech recognition pertama mulai
dipasarkan dengan harga mulai $259 hingga $100.000.
1980-an :
Pasaran speech recognition mulai digolongkan
menjadi dua, yaitu Call Center Speech Recognition System dan Speech-to-Text
Application.
1990-an :
Prosesor sebuah personal computer telah
sanggup memenuhi level minimal yang diperlukan agar sebuah software speech
recognition dapat berjalan dengan lancar serta efektif untuk penggunaan
pribadi.
1999 :
Sebuah program speech recognition baru telah
mampu memahami pembicaraan manusia secara berkesinambungan dengan tingkat
akurasi hingga 99% yang membuatnya dapat dengan mudah digunakan oleh pengguna
awam sekaligus.
Penerapan speech recognition
Bidang komunikasi
- Komando Suara adalah suatu
program pada komputer yang melakukan perintah berdasarkan komando suara dari
pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa
Inggris. Ketika pengguna mengatakan “Mulai kalkulator” dengan intonasi dan tata
bahasa yang sesuai, komputer akan segera membuka aplikasi kalkulator. Jika komando
suara yang diberikan sesuai dengan daftar perintah yang tersedia, aplikasi akan
memastikan komando suara dengan menampilkan tulisan “Apakah Anda meminta saya
untuk ‘mulai kalkulator’?”. Untuk melakukan verifikasi, pengguna cukup
mengatakan “Lakukan” dan komputer akan langsung beroperasi.
- Pendiktean adalah sebuah
proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan
atau penelitian. Contohnya pada aplikasi Microsoft Dictation yang
merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna
secara otomatis.
-
Telepon
Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara.
Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara.
Bidang kesehatan
Alat pengenal
ucapan banyak digunakan dalam bidang kesehatan untuk membantu para penyandang
cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau
Voice User Interface (VUI) yang menggunakan teknologi pengenal ucapan
dimana pengendalian saklar lampu misalnya, tidak perlu dilakukan secara manual
dengan menggerakkan saklar tetapi cukup dengan mengeluarkan perintah dalam
bentuk ucapan sebagai saklarnya. Metode ini membantu manusia yang secara fisik
tidak dapat menggerakkan saklar karena cacat pada tangan misalnya. Penerapan
VUI ini tidak hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi
kontrol yang lain.
Bidang militer
-
Pelatihan
Penerbangan, Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalu-lintas udara atau yang
dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para
pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan
navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator
yang memberikan informasi kepada pilot dengan cara berdialog.
-
Helikopter
Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada helikopter karena ketika terbang, sangat banyak gangguan yang akan menyulitkan pilot bila harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet tombol tertentu.
Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada helikopter karena ketika terbang, sangat banyak gangguan yang akan menyulitkan pilot bila harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet tombol tertentu.
Kelebihan dari
peralatan yang menggunakan teknologi ini adalah :
- Cepat
Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi tersebut. Contohnya pada komando suara. Hanya dalam selang waktu sekitar satu atau dua detik setelah kita mengkomandokan perintah melalui suara, komputer sudah memberi umpan balik atas komando kita. - Mudah digunakan, Kemudahan teknologi ini juga dapat dilihat dalam aplikasi komando suara. Komando yang biasanya kita masukkan ke dalam komputer dengan menggunakan tetikus atau papan ketik kini dapat dengan mudahnya kita lakukan tanpa perangkat keras, yakni dengan komando suara.
Kekurangan
dari peralatan yang menggunakan teknologi ini adalah :
- Rawan terhadap gangguan. Hal ini disebabkan oleh proses sinyal suara yang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang sama banyaknya dengan komponen frekuensi gangguannya, akan sulit untuk memisahkan gangguan dari sinyal suara.
- Jumlah kata yang dapat dikenal terbatas. Hal ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.
Hardware yang
dibutuhkan dalam implementasi Speech Recognition :
Sound card : Merupakan perangkat yang
ditambahkan dalam suatu Komputer yang fungsinya sebagai perangkat input dan
output suara untuk mengubah sinyal elektrik, menjadi analog maupun menjadi
digital.
Microphone : Perangkat input suara yang
berfungsi untuk mengubah suara yang melewati udara, air dari benda orang
menjadi sinyal elektrik.
Komputer atau Komputer Server : Dalam proses
suara digital menterjemahkan gelombang suara menjadi suatu simbol biasanya
menjadi suatu nomor biner yang dapat diproses lagi kemudian diidentifikasikan
dan dicocokan dengan database yang berisi berkas suara agar dapat dikenali.
Terdapat 4 langkah utama dalam sistem pengenalan suara :
1. Penerimaan
data input
2. Ekstraksi,
yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
3. Pembandingan/pencocokan,
yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa)
pada template.
4. Validasi
identitas pengguna.
Secara umum, speech recognition memproses
sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasit proses
digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan
dianalisa dengan membandingkannya dengan template suara pada database sistem.
Sebelumnya, data suara masukan
dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilahan ini
dilakukan agar proses analisis dapat dilakukan secara paralel. Proses yang
pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke
dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi
menjadi dua bagian :
-
Transformasi gelombang diskrit menjadi array data.
- Untuk masing-masing elemen pada array data, hitung "ketinggian"
gelombang (frekuensi). Objek permasaiahan yang akan dibagi adalah masukan
berukuran n, berupa data diskrit gelombang suara.
Ketika mengkonversi gelombang suara ke dalam
bentuk diskrit, gelombang diperlebar dengan cara memperinci berdasarkan waktu.
Hal ini dilakukan agar proses algoritma seianjutnya (pencocokan) lebih mudah
diiakukan. Namun, efek buruknya ialah array of array data yang terbentuk akan
lebih banyak. Dari tiap elemen array data tersebut, dikonversi ke dalam bentuk
bilangan biner. Data biner tersebut yang nantinya akan dibandingkan dengan
template data suara.
Sumber :
0 komentar:
Posting Komentar