La parole est depuis tout temps le moyen de communication privilégié de l’Homme. Elle véhicule, en plus du message linguistique prononcé, plusieurs types d’informations. Ces informations servent en particulier à déterminer l’identité du Locuteur ; elles sont exploitées par les humains pour l’identification des personnes qu’ils connaissent en particulier à distance (au téléphone par exemple). Les systèmes de Reconnaissance Automatique du Locuteur (RAL) s’intéressent précisément à ces caractéristiques particulières du signal de parole. Cette discipline s’inscrit dans le cadre général de la reconnaissance des formes ; c’est un terme générique qui regroupe les problèmes relatifs à l’identification ou à la vérification du Locuteur sur la base de l’information contenue dans le signal acoustique : il est question de reconnaître une personne à partir de sa voix. Le champ d’application est très vaste, il va du simple contrôle d’accès, aux applications militaires passant par des applications judiciaires. Un système de RAL opère en trois étapes : l’analyse acoustique du signal de parole, la modélisation du Locuteur et une dernière étape de décision
LA VOIX
La voix est un instrument paradoxal. Il est à la fois banal et précieux, fragile et puissant. [Musimem] La voix de chaque personne dépend des caractéristiques, à la fois anatomiques et comportementales. Avant de parler de la reconnaissance automatique du Locuteur, il est important de le décrire anatomiquement pour comprendre le processus d’émission de la voix et connaître les paramètres qui différencient un Locuteur d’un autre.
A côté de l’aspect anatomique, on présentera aussi dans cette section une description du signal vocal.
Description Anatomique du Locuteur
L’appareil vocal est constitué de structures appartenant à l’appareil respiratoire et à l’appareil digestif. On le décompose classiquement en trois étages [Kob], [Roublot, 2003], [Flanagan, 1972], [Bartkova, 2002] :
1. La soufflerie : Elle comprend la musculature respiratoire, les poumons, et les conduits sus-jacents. La soufflerie produit le flux d’air qui sera la matière première de la production vocale, expiré par les poumons et acheminé par la trachée vers le larynx.
2. Le vibrateur : Il s’agit du larynx qui est un tube situé à l’extrémité supérieure de la trachée, au niveau de la pomme d’Adam. La colonne d’air produite par la soufflerie est mise en vibration sous l’action des cordes vocales.
3. Les résonateurs : Ce sont principalement les cavités supra laryngées, à savoir le pharynx, la cavité buccale et les fosses nasales. La forme et le volume de ces cavités sont très variables selon les individus ; c’est ce qui explique que chaque personne ait un timbre de voix personnel et identifiable. Par ailleurs, les mouvements des muscles du pharynx et de la bouche (notamment : de la langue) permettent des modifications rapides du volume et de la forme de ces résonateurs qui transforment la voix produite par la vibration laryngée en phonèmes constitutifs de la parole articulée et ce, par l’amplification sélective de certaines fréquences laryngées.
Les cordes vocales sont attachées horizontalement entre le cartilage thyroïde (la « pomme d’Adam » chez l’homme) situé à l’avant et les cartilages aryténoïdes situés à l’arrière. En faisant bouger ces cartilages en parlant, on modifie la longueur et la position des cordes vocales. Lorsque la personne commence à dire quelques mots, les cartilages aryténoïdes accolent les cordes vocales l’une contre l’autre, fermant ainsi la glotte. Sous la pression de l’air expiré, les cordes vocales s’écartent, puis se referment aussitôt, entraînant à nouveau une hausse de la pression sous la glotte.
En ouvrant et fermant la glotte lors de la phonation, les cordes vocales libèrent de façon saccadée l’air emmagasiné dans les poumons. Au cours d’une phrase, le Locuteur modifie ainsi plusieurs fois la fréquence de vibration des cordes vocales pour produire les vibrations acoustiques correspondant à différents sons [Kob], [Roublot, 2003], [Flanagan, 1972].
Description Physique du Signal Vocal
En plus du message linguistique servant à la communication entre individus, le signal de parole véhicule des informations caractéristiques de la personne qui l’a émis comme le timbre de sa voix, sa façon de parler, son état émotionnel ou pathologique, etc. Ces informations caractéristiques du Locuteur peuvent être classées en deux catégories distinctes :
– Les informations de nature statique telles que les paramètres spectraux caractérisant les conduits vocal et nasal, la moyenne et les variations de la fréquence fondamentale.
– Les informations de nature dynamique reflétant les phénomènes de co-articulation, les trajectoires formantiques ainsi que les informations temporelles (vitesse d’élocution, distribution des pauses).
Nous parlerons ici des caractéristiques statiques du signal vocal. Ce dernier peut être défini par 4 paramètres principaux [Zwicker et al., 1981], [Reynolds, 1994], [Homayounpour et al., 1994] :
1. Intensité: L’intensité d’un son correspond à l’amplitude de la vibration acoustique ; elle caractérise le volume sonore qui nous permet de distinguer un son fort d’un son faible. L’intensité vocale varie surtout en fonction de la pression sous glottique.
2. Timbre: Le timbre permet de différencier deux sons de même hauteur et de même amplitude. Il est constitué d’un ensemble de fréquences appelé spectre. La richesse du spectre permettra de dire qu’un son est riche, brillant, profond, etc. Le timbre est fonction des trois critères suivants : des conditions d’accolement des cordes vocales, de leur épaisseur et enfin des caractéristiques anatomiques des cavités de résonance (pharynx, bouche et cavités nasales).
3. Hauteur: La hauteur dépend de la fréquence de la variation de pression acoustique correspondant au son. Elle est fonction de la périodicité du mouvement des lèvres glottiques, c’est-à-dire en pratique, du nombre d’ouvertures glottiques par seconde. La hauteur dépend aussi de la taille du larynx : plus les cordes vocales sont longues, plus la voix est grave.
4. Fréquence : Elle représente le nombre de vibrations de l’air en une seconde.
DE LA RECONNAISSANCE HUMAINE A LA RECONNAISSANCE AUTOMATIQUE
Reconnaissance Auditive
Utilisée jusqu’à nos jours dans le domaine juridique, l’identification auditive se base essentiellement sur la capacité naturelle de l’être humain à reconnaître une personne en utilisant seulement l’écoute de sa voix. Cette capacité est cependant variable selon les individus [Ladefoged et al., 1980], [Schmidt et al., 2000] et reste influencée par différents facteurs : familiarité entre l’auditeur et le Locuteur [Van Lancker et al., 1985], [Papcun et al., 1989], [Yarmey et al., 2001], durée des enregistrements, conditions de stress ou de modifications volontaires de la voix, etc.
Reconnaissance par spectrogramme
Une ‘empreinte vocale’ est en fait un terme qui fait référence à un spectrogramme du signal vocal [Bolt et al., 1970], [Stevens et al., 1968]. Il s’agit d’un graphique qui représente le signal en trois dimensions : temps, fréquence et intensité. Le spectrogramme est un outil utile pour le traitement et l’analyse de la voix mais n’a cependant aucun lien avec les empreintes digitales ou génétiques. L’analyse des empreintes digitales par exemple, bénéficie d’une longue histoire et de bases de données expérimentales de dimension très importante. Dans le domaine vocal, les bases de données disponibles ne comportent pas un nombre suffisant de Locuteurs, de langues et de conditions d’enregistrement pour l’évaluation des méthodes d’authentification criminalistique, à haut niveau de fiabilité. De plus, la voix présente des différences majeures avec les empreintes digitales et génétiques. Elle évolue dans le temps, elle peut être modifiée volontairement par son porteur, elle est facilement falsifiable, etc. Par conséquent, on ne parle pas d’empreinte vocale mais plutôt de signature vocale. La reconnaissance vocale par spectrogramme se fait par comparaison spectrale (spectrographiques) de mots.
|
Table des matières
Introduction Générale
CHAPITRE I : La Biométrie
1-1 Introduction
1-2 Biométrie
1-2-1 Définition
1-2-2 Techniques biométriques
1-2-3 Panorama d’application
1-2-4 Processus d’identification biométrique
1-2-5 Identification Vs Vérification
1-2-6 Fiabilité des systèmes biométriques
1-2-7 Biométrie vocale
1-3 Conclusion
CHAPITRE II : La Reconnaissance Automatique du Locuteur
2-1 Introduction
2-2 La voix
2-2-1 Description Anatomique du Locuteur
2-2-2 Description physique du signal vocal
2-3 De la Reconnaissance Humaine à la Reconnaissance Automatique
2-3-1 Reconnaissance Auditive
2-3-2 Reconnaissance par Spectrogramme
2-3-3 Reconnaissance Phonétique
2-3-4 Reconnaissance Automatique
2-4 Reconnaissance Automatique du Locuteur
2-4-1 Généralité
2-4-2 Différentes tâches en RAL
2-5 Structures des systèmes d’IAL
2-5-1 Paramétrisation Acoustique
2-5-2 Modélisation des Locuteurs
2-5-3 Décision
2-6 Conclusion
Chapitre III : La Fusion de Données
3-1 Introduction
3-2 Pourquoi la fusion de données ?
3-3 Définition de la fusion de données
3-3-1 Définitions diverses non satisfaisantes de la fusion de données
3-3-2 Nouvelles définitions de la fusion de données
3-3-3 Définition JDL de la fusion de données
3-4 Concepts de la fusion de données
3-4-1 Caractéristiques générales des données
3-4-2 Types de fusion
3-4-3 Etapes du processus de fusion de données
3-4-4 Architectures des systèmes de fusion de données
3-4-5 Domaines d’application
3-5 Avantages de la fusion de données
3-6 Approches de fusion de données
3-6-1 Théorie des probabilités
3-6-2 Théorie de l’évidence
3-6-3 Théorie des possibilités
3-6-4 Les réseaux de neurones
3-6-5 Discussion
3-7 Conclusion
Chapitre IV : Système Acoustico-Anatomique pour l’Identification des Locuteurs
4-1 Introduction
4-2 Présentation du système
4-2-1 Architecture du système Acoustico-Anatomique
4-2-2 Paramétrisation du Locuteur
4-2-3 Algorithme Proposé pour la fusion
4-2-4 Construction de l’espace de représentation
4-2-5 Localisation des Locuteurs
4-2-6 Décision
4-2-7 Corpus Proposé
4-3 Conclusion
Conclusion Générale
