Impact des techniques d'adaptation au locuteur dans l'espace des paramètres pour des modèles acoustiques purement neuronaux

Natalia Tomashenko, Yannick Estève


Cet article explore l'utilisation de techniques d'adaptation au locuteur pour des modèles acoustiques bidirectionnels de type long short term memory (BLSTM) entrainés avec la fonction objective dite de classification temporelle connectioniste (CTC). Les modèles acoustiques BLSTM-CTC prennent de plus en plus d'importance dans les systèmes de reconnaissance automatique de la parole, mais peu d'études ont été menées jusqu'ici pour y appliquer des techniques d'adaptation au locuteur. Dans cet article, nous explorons l'utilisation de trois techniques différentes : l'approche par feature space maximum likelihood linear regression (fMLLR), celle s'appuyant sur l'utilisation de i-vectors, et une approche exploitant la technique d'adaptation maximum a posteriori (MAP) appliquée sur des modèles gaussiens dont sont dérivés des paramètres fournis au modèles acoustiques neuronaux. Enfin, cette étude présente une comparaison du comportement des modèles BLSTM-CTC avec celui de modèles markoviens associés à un time-delay neural network (TDNN).


 DOI: 10.21437/JEP.2018-64

Cite as: Tomashenko, N., Estève, Y. (2018) Impact des techniques d'adaptation au locuteur dans l'espace des paramètres pour des modèles acoustiques purement neuronaux. Proc. XXXIIe Journées d’Études sur la Parole, 559-567, DOI: 10.21437/JEP.2018-64.


@inproceedings{Tomashenko2018,
  author={Natalia Tomashenko and Yannick Estève},
  title={{Impact des techniques d'adaptation au locuteur dans l'espace des paramètres pour des modèles acoustiques purement neuronaux}},
  year=2018,
  booktitle={Proc. XXXIIe Journées d’Études sur la Parole},
  pages={559--567},
  doi={10.21437/JEP.2018-64},
  url={http://dx.doi.org/10.21437/JEP.2018-64}
}