Penerapan Metode Mel Frequency Ceptral Coefficient dan Learning Vector Quantization untuk Text-Dependent Speaker Identification

Authors

  • Sukoreno Mukti Widodo Institut Teknologi Harapan Bangsa
  • Elisafina Siswanto Institut Teknologi Harapan Bangsa
  • Oetomo Sudjana Universitas Parahyangan

DOI:

https://doi.org/10.61769/telematika.v11i1.147

Keywords:

Pengenalan suara, Learning Vector Quantization, Mel Frequency Ceptral Coefficients, ekstraksi fitur suara, seleksi fitur, Text-Dependent.

Abstract

Layanan keamanan pada umumnya menggunakan kata sandi untuk membatasi dan mengontrol akses layanan tersebut.Kata sandi yang biasa digunakan sering kali berbentuk teks.Penggunaan kata sandi dengan bentuk teks dianggap masih kurang aman karena sering kali terjadi kebocoran. Maka dari itu dibutuhkanlah bentuk lain dari kata sandi, untuk meningkatkan keamanan dalam mengakses layanan atau data tertentu. Salah satunya adalah dalam bentuk suara. Sistem ini berbasis pada input berupa file audio dengan data ucapan yang bergantung pada teks atau text-dependent dengan output adalah identitas pembicara yang teridentifikasi. Pada penelitian ini, sistem pengenalan pembicara dibuat untuk dapat mengenali suara pembicara dengan menggunakan Mel-Frequency Cepstral Coefficients yang digunakan untuk melakukan ekstraksi fitur dari data suara sehingga dihasilkan fitur-fitur yang mewakili pembicara tersebut dan metode Learning Vector Quantization yang digunakan untuk melatih data-data hasil ekstraksi dan mencocokan data latih dengan data baru sehingga didapatkan identitas dari pembicara berdasarkan suara tersebut. Dari hasil pengujian pada sistem ini, didapatkan identification rate tertinggi adalah 88.9% dengan menggunakan data dengan durasi sekitar 8 detik.

 

Security services generally use a password to restrict and control access to its services. Many password used is often in the text form. This type of password is considered less secure because it can be obtained by unauthorized people. Other forms of password are required to increase the security in accessing services or specific data such as voices. This system is based on the input of an audio file such as utterance that depends on text or text-dependent. In this study, the speaker recognition system is made to recognize the speaker of an audio file using Mel-Frequency Ceptral Coefficients for extracting voice data to produce features that represent the speaker and Learning Vector Quantization (LVQ) to train the data extraction and matching training data with new data to obtain the identity of the speaker based on the sound. From the experiment result, obtained the highest identification rate is 88.9% using data with a duration about 8 seconds.

Author Biographies

Sukoreno Mukti Widodo, Institut Teknologi Harapan Bangsa

Sukoreno Mukti Widodo, mahasiswa jurusan Teknik Informatika di Institut Teknologi Harapan Bangsa yang lulus pada tahun 2016.

Elisafina Siswanto, Institut Teknologi Harapan Bangsa

Elisafina Siswanto, lahir di Bandung pada tahun 1989, menerima gelar Sarjana Teknik dari Institut Teknologi Harapan Bangsa pada tahun 2011 jurusan Teknik Informatika, dan menyelesaikan pendidikan Magister Informatika di Institut Teknologi Bandung pada tahun 2014 Saat ini aktif sebagai pengajar di Departement Teknik Informatika, Institut Teknologi Harapan Bangsa di Bandung. Minat penelitian adalah pada bidang Pembelajaran Mesin dan Pemrosesan Bahasa Alami.

Oetomo Sudjana, Universitas Parahyangan

Oetomo Sudjana, adalah lulusan Teknik Elektro dari Universitas Udayana, Bali pada tahun 2010 dan menerima gelar Magister Teknik Elektro dari Institut Teknologi Bandung pada tahun 2014. Saat ini aktif sebagai pengajar di Teknik Industri, Universitas Parahyangan

References

Kshamamayee Dash, Debananda Padhi, Bhoomika Panda, and Sanghamitra Mohanty, "Speaker Identification Using Mel Frequency Cepstral Coefficient And Bpnn," International Journal of Advanced Research in Computer Science and Software Engineering, vol. 2, no. 4, April 2012.

Zhizheng Wu, Anthony Larcher, and Kong Aik Lee, "Vulnerability evaluation of speaker verification under voice conversion spoofing: the effect of text constraints.," in INTERSPEECH, 2013, pp. 950-954.

Utpal Bhattacharjee, "A Comparative Study Of LPCC And MFCC Features For The Recognition Of Assamese Phonemes," International Journal of Engineering Research and Technology, vol. 2, no. 1, January 2013.

Penghua LI, Shunxing Zhang, Huizong Feng, and Yuanyuan Li, "Speaker Identification Using Spectrogram And Learning Vector Quantization," Journal of Computational Information Systems, vol. 11, no. 9, 2015.

Geeta Nijhawan and M.K Soni, "Speaker Recognition Using Mfcc And Vector Quantisation," International Journal on Recent Trends in Engineering and Technology, vol. 11, no. 1, Juli 2014.

Richard G Lyons, Understanding Digital Signal Processing 3rd Edition. Boston: Prentice Hall, 2011.

Laurene Fausett, Fundamental of Neural Networks: Architectures, Algorithms, and Applications.: Prentice Hall, 1994.

Published

2017-02-22

Issue

Section

Articles