Transcription phonétique automatique pour la synthèse de la parole

Kévin Vythelingum, Yannick Estève, Olivier Rosec


La synthèse de parole consiste à produire un signal de parole à partir d'une séquence de mots. Elle s'appuie sur un ensemble d'enregistrements de parole transcrits en mots et en chaînes phonétiques. La qualité de cette transcription influe directement sur la qualité globale des systèmes de synthèse. Or, les chaînes phonétiques sont généralement issues d'une phonétisation automatique du texte, qui ne varie donc pas d'un locuteur à l'autre. Dans ce travail, nous explorons différentes méthodes permettant d'obtenir des chaînes phonétiques dépendantes du signal de parole et du texte. Nous appliquons finalement nos résultats à la tâche de détection des erreurs de phonétisation. Autrement dit, nous cherchons à identifier des zones où les chaînes phonétiques initiales sont erronées. Sur des données en français, nous montrons que nous pouvons corriger de 76,6 à 90,7% des erreurs de phonétisation d'un système commercial en ne vérifiant que 3,6 à 18,5% des données.


 DOI: 10.21437/JEP.2018-12

Cite as: Vythelingum, K., Estève, Y., Rosec, O. (2018) Transcription phonétique automatique pour la synthèse de la parole. Proc. XXXIIe Journées d’Études sur la Parole, 98-106, DOI: 10.21437/JEP.2018-12.


@inproceedings{Vythelingum2018,
  author={Kévin Vythelingum and Yannick Estève and Olivier Rosec},
  title={{Transcription phonétique automatique pour la synthèse de la parole}},
  year=2018,
  booktitle={Proc. XXXIIe Journées d’Études sur la Parole},
  pages={98--106},
  doi={10.21437/JEP.2018-12},
  url={http://dx.doi.org/10.21437/JEP.2018-12}
}