BELAJAR YUUKS!: tugas 2 - Speech Recognition

Speech recognition adalah proses konversi sebuah sinyal akustik, yang ditangkap oleh microphone atau telepon, untuk merangkai kata kata. Kata–kata yang dikenali merupakan hasil akhir untuk sebuah aplikasi seperti command & control, penginputan data, dan persiapan dokumen. Kita hanya perlu mengatakan perintah dengan bahasa inggris lalu komputer akan menjalankan perintah kita. Hal ini juga bisa dilakukan untuk pengetikan. Speech Recognition di windows 7 membuat kita bisa memerintah PC dengan suara kita untuk mendikte hampir ke berbagai aplikasi.

Lalu bagaimana sebenarnya awal mula ditemukan teknologi speech recognition ini?

1874 :

Alexander Graham Bell berhasil membuktikkan bahwa frekuensi harmoni dari sebuah sinyal elektrik dapat dibagi-bagi yang kemudian hari berlanjut pada digitalisasi ucapan.

1952 :

Bell Labs mengembangkan speech recognizer pertama dengan menggunakan teknologi pemisah frekuensi yang serupa dengan teknologi yang dikembangkan oleh Alexander Graham Bell.

1971-1976 :

Defence Advance Research Project Agency dibentuk yang merupakan proyek riset dengan dana dari pemerintah AS. Tujuan dari proyek ini adalah untuk melakukan penelitian teknologi speech recognition. Penemuan terbesar yang dihasilkan proyek ini adalah peningkatan dalam menekan permasalahan variabilitas suara. Pada rentang tahun yang sama pula ditemukan :

Pemrograman dinamik oleh tiga peneliti asal Jepang, Itakura, Skoe, dan Chiba yang dikemudian hari menjadi dasar bagi deret waktu non-linier.
Pemodelan Makov oleh Jim Baker dan Fred Jelinek dari IBM yang merupakan pemodelan untuk menentukan letak informasi tetap dalam sebuah sinyal wicara (speech signal).

Pertengahan tahun 1970-an :

Itakura mengadakan sebuah riset untuk mengembangkan sebuah produk yang berbasis pada asumsi bahwa noise itu walaupun terdengar sama namun pada kenyataannya tidak demikian. Produk tersebut akurasinya mencapai 97,3% saat diuji menggunakan 200 kosakata.

Bell Labs mengembangkan sistem yang mampu mengenali suara dari orang-orang yang berbeda dengan akurasi hingga 97,1%.

Akhir 1970-an :

Produk speech recognition pertama mulai dipasarkan dengan harga mulai $259 hingga $100.000.

1980-an :

Pasaran speech recognition mulai digolongkan menjadi dua, yaitu Call Center Speech Recognition System dan Speech-to-Text Application.

1990-an :

Prosesor sebuah personal computer telah sanggup memenuhi level minimal yang diperlukan agar sebuah software speech recognition dapat berjalan dengan lancar serta efektif untuk penggunaan pribadi.

1999 :

Sebuah program speech recognition baru telah mampu memahami pembicaraan manusia secara berkesinambungan dengan tingkat akurasi hingga 99% yang membuatnya dapat dengan mudah digunakan oleh pengguna awam sekaligus.

Penerapan speech recognition

Bidang komunikasi

- Komando Suara adalah suatu program pada komputer yang melakukan perintah berdasarkan komando suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa Inggris. Ketika pengguna mengatakan “Mulai kalkulator” dengan intonasi dan tata bahasa yang sesuai, komputer akan segera membuka aplikasi kalkulator. Jika komando suara yang diberikan sesuai dengan daftar perintah yang tersedia, aplikasi akan memastikan komando suara dengan menampilkan tulisan “Apakah Anda meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan verifikasi, pengguna cukup mengatakan “Lakukan” dan komputer akan langsung beroperasi.

- Pendiktean adalah sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.

- Telepon
Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara.

Bidang kesehatan

Alat pengenal ucapan banyak digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User Interface (VUI) yang menggunakan teknologi pengenal ucapan dimana pengendalian saklar lampu misalnya, tidak perlu dilakukan secara manual dengan menggerakkan saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk ucapan sebagai saklarnya. Metode ini membantu manusia yang secara fisik tidak dapat menggerakkan saklar karena cacat pada tangan misalnya. Penerapan VUI ini tidak hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi kontrol yang lain.

Bidang militer

- Pelatihan Penerbangan, Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalu-lintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada pilot dengan cara berdialog.

- Helikopter
Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada helikopter karena ketika terbang, sangat banyak gangguan yang akan menyulitkan pilot bila harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet tombol tertentu.

Kelebihan dari peralatan yang menggunakan teknologi ini adalah :

Cepat
Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi tersebut. Contohnya pada komando suara. Hanya dalam selang waktu sekitar satu atau dua detik setelah kita mengkomandokan perintah melalui suara, komputer sudah memberi umpan balik atas komando kita.
Mudah digunakan, Kemudahan teknologi ini juga dapat dilihat dalam aplikasi komando suara. Komando yang biasanya kita masukkan ke dalam komputer dengan menggunakan tetikus atau papan ketik kini dapat dengan mudahnya kita lakukan tanpa perangkat keras, yakni dengan komando suara.

Kekurangan dari peralatan yang menggunakan teknologi ini adalah :

Rawan terhadap gangguan. Hal ini disebabkan oleh proses sinyal suara yang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang sama banyaknya dengan komponen frekuensi gangguannya, akan sulit untuk memisahkan gangguan dari sinyal suara.
Jumlah kata yang dapat dikenal terbatas. Hal ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.

Hardware yang dibutuhkan dalam implementasi Speech Recognition :

Sound card : Merupakan perangkat yang ditambahkan dalam suatu Komputer yang fungsinya sebagai perangkat input dan output suara untuk mengubah sinyal elektrik, menjadi analog maupun menjadi digital.

Microphone : Perangkat input suara yang berfungsi untuk mengubah suara yang melewati udara, air dari benda orang menjadi sinyal elektrik.

Komputer atau Komputer Server : Dalam proses suara digital menterjemahkan gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor biner yang dapat diproses lagi kemudian diidentifikasikan dan dicocokan dengan database yang berisi berkas suara agar dapat dikenali.

Terdapat 4 langkah utama dalam sistem pengenalan suara :

1. Penerimaan data input

2. Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.

3. Pembandingan/pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.

4. Validasi identitas pengguna.

Secara umum, speech recognition memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasit proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan template suara pada database sistem.

Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan secara paralel. Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :

- Transformasi gelombang diskrit menjadi array data.

- Untuk masing-masing elemen pada array data, hitung "ketinggian" gelombang (frekuensi). Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.

Ketika mengkonversi gelombang suara ke dalam bentuk diskrit, gelombang diperlebar dengan cara memperinci berdasarkan waktu. Hal ini dilakukan agar proses algoritma seianjutnya (pencocokan) lebih mudah diiakukan. Namun, efek buruknya ialah array of array data yang terbentuk akan lebih banyak. Dari tiap elemen array data tersebut, dikonversi ke dalam bentuk bilangan biner. Data biner tersebut yang nantinya akan dibandingkan dengan template data suara.

Sumber :

- http://blog.ugm.ac.id/2010/11/27/speech-recognition-34/

- http://id.wikipedia.org/wiki/Pengenalan_ucapan

- http://tseljatengdiy.com/genmerapi/sejarah-speech-recognition

- http://nda-kamal.blogspot.com/2011/11/speech-recognition.html