Prédiction a priori de la qualité de la transcription automatique de la parole bruitée

Sébastien Ferreira, Jérôme Farinas, Julien Pinquier, Stéphane Rabant


De nombreuses sources de variabilité dégradent les performances d'un système de Reconnaissance Automatique de la Parole (RAP). Dans cette étude, les dégradations provoquées par le type et le niveau de bruit sont explorées afin de prédire a priori la qualité de la RAP, i.e. avant même le décodage. Notre méthode se fonde sur une séparation spectrale de la parole et du bruit afin de produire un modèle de régression. L'expérimentation a été réalisée sur le corpus Wall street Journal, bruité avec le corpus NOISEX-92 (17 types de bruit) que nous appliquons à 9 niveaux de rapport signal à bruit. La méthode de régression proposée obtient moins de 8% d'erreur moyenne entre le Word Error Rate (WER) prédit et le WER réellement obtenu par le système de transcription automatique de la parole.


 DOI: 10.21437/JEP.2018-29

Cite as: Ferreira, S., Farinas, J., Pinquier, J., Rabant, S. (2018) Prédiction a priori de la qualité de la transcription automatique de la parole bruitée. Proc. XXXIIe Journées d’Études sur la Parole, 249-257, DOI: 10.21437/JEP.2018-29.


@inproceedings{Ferreira2018,
  author={Sébastien Ferreira and Jérôme Farinas and Julien Pinquier and Stéphane Rabant},
  title={{Prédiction a priori de la qualité de la transcription automatique de la parole bruitée}},
  year=2018,
  booktitle={Proc. XXXIIe Journées d’Études sur la Parole},
  pages={249--257},
  doi={10.21437/JEP.2018-29},
  url={http://dx.doi.org/10.21437/JEP.2018-29}
}