Endpoint Detection Enhancement for Speaker Dependent Recognition

Ummu Salmah Mohamad, Siti Mariyam Shamsuddsuddsuddsuddin & Ramlan Mahmud

 

ABSTRACT

The automatic speech recognition (ASR) field has become one of the leading speech technology areas today. Various methods have been introduced to develop an efficient ASR system. The Neural Network (NN) approach is one of the more popular methods that is widely used in this field. Another Multilayer perceptron (MLP) model which is popularly used in the ASR field is the NN model. However, the current problems faced by MLP and most NN models in the ASR field is the long duration of training. Furthermore, the robustness of the isolated digit recognition is not trivial because it has been widely used in many applications. This study focuses on improving the training time and robustness of the MLP neural network for the Malay isolated digit recognition system by proposing variance endpoint detection to accelerate the convergence time of the NN and to produce the highest recognition accuracy. The proposed endpoint method have shown very promising results over experiments carried out. The overall performance for the Malay data set is 99.83% with a convergence time of 82 seconds.

Keyword: Automatic Speech Recognition, Multilayer Perceptron, Endpoint Detection, Artificial Neural Network

 

 

ABSTRAK

Bidang pengecaman pertuturan automatik telah menjadi salah satu bahagian teknologi pertuturan yang utama masa kini. Pelbagai kaedah telah diperkenalkan untuk membangun sistem pengecaman pertuturan automatik yang efisien. Rangkaian neural merupakan salah satu pendekatan terkenal yang sering digunakan dengan meluas di dalam bidang ini. Perseptron multi aras merupakan model rangkaian neural yang popular dalam bidang pengecaman pertuturan. Walau bagaimanapun, salah satu masalah yang dihadapi oleh perseptron multi aras dan model rangkaian neural lain dalam bidang pengecaman pertuturan ialah masa latihan yang terlalu lama. Di samping itu, ketepatan pengecaman pertuturan digit terpencil juga tidak boleh diabaikan kerana ianya digunakan dengan meluas dalam banyak aplikasi. Kajian ini memfokus terhadap pembaikan masa latihan dan ketegapan pengecaman bagi perceptron multi aras dengan mencadangkan kaedah pengesanan titik hujung varians bagi melajukan masa penumpuan dan menghasilkan ketepatan pengecaman yang tertinggi. Cadangan kaedah pengesanan titik hujung telah menunjukkan keputusan yang memberangsangkan bagi keseluruhan eksperimen yang dijalankan. Keseluruhan prestasi untuk data set Melayu adalah 99.83% dengan masa penumpuan 82 saat.

Kata kunci: Pengecaman Pertuturan Automatik, Perseptron MultiAras, Pengesanan Titik Hujung, Rangkaian Neural.

References