Conversion d'Identité de la Voix Chantée par Sélection et Concaténation d'Unités Spectrales

Nicolas Obin, Pascal Pham, Axel Roebel


Cet article présente un algorithme de sélection d'unités spectrales pour la conversion de l'identité de la voix chantée à partir de bases de données non parallèles. La contribution principale de cet article est de réaliser la sélection des unités spectrales de la voix cible en fonction de plusieurs facteurs: acoustique, linguistique (phonèmes) et musicaux (hauteur, intensité et durée). Pour ce faire, la sélection de la séquence d'unités d'enveloppe spectrale est établie comme un problème d'optimisation à partir d'une fonction de coût multiple qui comprend la distorsion spectrale des chanteurs source et cible ainsi que les différences de hauteur, d'intensité et de durée des unités spectrales correspondantes. L'objectif est de guider la sélection vers des enveloppes spectrales du chanteur cible partageant un contexte musical similaire avec celles du chanteur source. Une expérience perceptive montre que l'algorithme proposé améliore le naturel de la conversion et la similarité avec la voix cible.


 DOI: 10.21437/JEP.2018-1

Cite as: Obin, N., Pham, P., Roebel, A. (2018) Conversion d'Identité de la Voix Chantée par Sélection et Concaténation d'Unités Spectrales. Proc. XXXIIe Journées d’Études sur la Parole, 1-9, DOI: 10.21437/JEP.2018-1.


@inproceedings{Obin2018,
  author={Nicolas Obin and Pascal Pham and Axel Roebel},
  title={{Conversion d'Identité de la Voix Chantée par Sélection et Concaténation d'Unités Spectrales}},
  year=2018,
  booktitle={Proc. XXXIIe Journées d’Études sur la Parole},
  pages={1--9},
  doi={10.21437/JEP.2018-1},
  url={http://dx.doi.org/10.21437/JEP.2018-1}
}