Penerapan Convolutional Neural Network untuk Melakukan Estimasi Pitch pada Rekaman Suara Penyanyi
Abstract
A musical performance is determined by the intonation accuracy, which is the pitch accuracy of a musician or musical instrument, whether a tone is played 'in tune' or not. Therefore, to determine the intonation quality of a musical performance, it is necessary to estimate the pitch. In this research, a one-dimensional Convolutional Neural Network (CNN) is used to estimate the pitch from singing voice recording. After pitch estimation, Dynamic Time Warping (DTW) method is used to calculate the similarity (measured in distance) of pitch estimation results with the recording template from the dataset to determine intonation accuracy. This research uses several preprocessing methods, such as quantization pitch label, spectrogram generation, scaling, and spectrogram recoloring. The CNN method for performing pitch estimation is tested using five songs from the MIR-QBSH dataset. CNN testing is done by applying four architectural designs by combining epoch values, learning rate, number of filters in each convolutional layer, and number of convolutions to find the best combination that produces the highest accuracy. Based on the test results, the model built can produce the highest average accuracy of 97.425% with a difference between the average accuracy and the average validation accuracy of 14.383%. The optimal threshold value for distance is in the range of 1000-1500.
Pembawaan karya musik yang baik ditentukan dari ketepatan intonasi yang merupakan akurasi pitch dari sebuah nada yang dikeluarkan oleh seorang musisi atau instrumen musik, diproduksi dengan tepat atau tidak. Maka dari itu, untuk menentukan kualitas intonasi penampilan suatu karya musik, estimasi pitch perlu dilakukan. Pada penelitian ini, sebuah Convolutional Neural Network (CNN) satu dimensi digunakan untuk melakukan estimasi pitch dari rekaman suara nyanyian. Setelah estimasi pitch dilakukan, maka digunakan metode Dynamic Time Warping (DTW) untuk melakukan pengujian kemiripan (dalam distance) hasil estimasi pitch dengan template rekaman dari dataset. Pengujian tersebut dilakukan untuk menentukan ketepatan intonasi. Beberapa metode preprocessing yang dilakukan adalah pembulatan pitch label, pembuatan spektogram, scaling, dan pewarnaan ulang spektogram. Metode CNN untuk melakukan estimasi pitch diuji dengan menggunakan lima lagu dari dataset MIR-QBSH. Pengujian CNN dilakukan dengan menerapkan empat rancangan arsitektur dengan mengombinasikan nilai epoch, learning rate, jumlah filter pada setiap convolutional layer, dan jumlah konvolusi untuk mencari kombinasi terbaik yang menghasilkan akurasi tertinggi. Berdasarkan hasil pengujian, model yang dibangun dapat menghasilkan rata-rata akurasi tertinggi sebesar 97,425% dengan selisih antara rata-rata akurasi dan rata-rata akurasi validasi sebesar 14,383%. Nilai threshold yang optimal untuk distance berada pada rentang 1000-1500.
Keywords
Full Text:
PDF (Bahasa Indonesia)References
C. Gupta, H. Li, dan Ye Wang, ”Perceptual evaluation of singing quality,” dalam 2017 Proceedings of APSIPA Annual Summit and Conference, Kuala Lumpur Sentral, Malaysia, 12-15 Desember 2017.
M. Muller, Fundamentals of Music Processing, edisi ke-1, Erlangen: Springer International Publishing, 2015, hlm. i, 18-29, 57-68, 98-102, 131-140.
D. Tatarenkov dan D. Podolsky, “Deep learning for singing processing: achievements, challenges and impact on singers and listeners,” dalam Proceedings of the 35th International Conference on Machine Learning, Stockholm, Sweden, 10-15 Juli 2018.
S. R. Kadiri dan B. Yegnanarayana, “Estimation of fundamental frequency from singing voice using harmonics of impulse-like excitation source,” dalam Interspeech 2018, Hydreabad, 2-6 September 2018.
Jong Wook Kim, J. Salamon, P. Li, dan J. Pablo Bello, ”CREPE: a convolutional representation for pitch estimation,” dalam 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary TELUS Convention Centre, Calgary, Canada, 15-20 April 2018, hlm.161-165.
R. M. Bittner, B. McFee, J. Salamon, P. Li, dan J. Pablo Bello, ”Deep salience representation for f0 estimation in polyphonic music,” dalam 18th International Society for Music Information Retrieval Conference, China, 23-27 Oktober 2017.
H. Su, H. Zhang, X. Zhang, dan G. Gao, ”Convolutional Neural Network for robust pitch determination,” dalam 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, China, 20-25 Maret 2016.
Goodfellow, Y. Bengio, dan A. Courville, Deep Learning, An MIT Press book, MIT Press, 2016.
F. Chollet, Deep Learning with Python, edisi ke-1. New York: Manning Publications, 2018, hlm. 225-226.
H. Kinsley dan D. Kukieła, “Neural Networks from Scratch in Python”, edisi ke-1. Harrison Kinsley, 2020, hlm. 108, 333-358.
S. Khan, H. Rahmani, Syed Afaq Ali Shah, dan M. Bennamoun, “A Guide to Convolutional Neural Networks for Computer Vision”, edisi ke-1, Gerard´ Medioni and Sven Dickinson, Ed. California: Morgan and Claypool, 2018, hlm. 45, 53, 56, 67-80.
H. Habibi Aghdam dan E. Jahani Heravi, Guide to Convolutional Neural Networks, edisi ke-1. Switzerland: Springer International Publishing AG, 2017, hlm. 108-111, 118-120.
J. S. R. Jang, ”MIR-QBSH Corpus”, 2003-2009. [Daring]. Tersedia: http://mirlab.org/dataset/public/MIR-QBSH-corpus.rar. [10 September 2020].
Refbacks
- There are currently no refbacks.
Copyright (c) 2022 Jurnal Telematika

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
____________________________________________
Institut Teknologi Harapan Bangsa
Jl. Dipatiukur no. 80-84 Lt. 2
Bandung 40132
Jurnal Telematika is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.