La reconnaissance automatique du locuteur par la voix IP
Points forts et limites de la voix sur IP
Différentes sont les raisons qui peuvent pousser les entreprises à s’orienter vers la Voix sur IP comme solution, les avantages les plus marqués sont :
Réduction des coûts : Aujourd’hui, la position des opérateurs téléphoniques classique est rapidement menacée par l’arrivée massive de la téléphonie sur IP, dont la tarification tend vers la gratuité, les coûts des communications interurbaines ont chuté de manière considérable ce qui laisse croire qu’elle a encore de beaux jours devant elle.
Standards ouverts : La voix sur IP n’est plus uniquement H323, mais un usage multiprotocoles selon les besoins de services nécessaires. Par exemple, H323 fonctionne en mode égale à égale alors que MGCP fonctionne en mode centralisé. Ces différences de conception offrent immédiatement une différence dans l’exploitation des terminaisons considérées.
Un réseau voix, vidéo et données (à la fois) : Grâce à l’intégration de la voix comme une application supplémentaire dans un réseau IP, ce dernier va simplifier la gestion des trois applications (voix, réseau et vidéo) par un seul transport IP. Une simplification de gestion, mais également une mutualisation des efforts financiers vers un seul outil.
Un service PABX distribué ou centralisé : Les PABX en réseau bénéficient de services centralisés tel que la messagerie vocale et la taxation, etc… Cette même centralisation continue à être assurée sur un réseau Voix IP sans limitation du nombre de canaux. Il convient, pour en assurer une bonne utilisation, de dimensionner convenablement le lien réseau. L’utilisation de la voix IP met en commun un média qui peut à la fois offrir à un moment précis une bande passante maximum à la donnée, et dans une autre période une bande passante maximum à la voix, garantissant toujours la priorité à celle-ci.
Les points faibles de la voix sur IP
Fiabilité et qualité sonore : Un des problèmes les plus importants de la téléphonie sur IP est la qualité de la retransmission qui n’est pas encore optimale. En effet, des désagréments tels la qualité de la reproduction de la voix du correspondant ainsi que le délai entre le moment où l’un des interlocuteurs parle et le moment où l’autre entend peuvent être extrêmement problématiques. De plus, il se peut que des morceaux de la conversation manquent (des paquets perdus pendant le transfert) sans être en mesure de savoir si des paquets ont été perdus et à quel moment.
Dépendance de l’infrastructure technologique et support administratif exigeant : les centres de relations IP peuvent être particulièrement vulnérables en cas d’improductivité de l’infrastructure. Par exemple, si la base de données n’est pas disponible, les centres ne peuvent tout simplement pas recevoir d’appels. La convergence de la voix et des données dans un seul système signifie que la stabilité du système devient plus importante que jamais et l’organisation doit être préparée à travailler avec efficience ou à encourir les conséquences.
Vol : Les hackers qui parviennent à accéder à un serveur voix IP peuvent également accéder aux messages vocaux stockés et au même au service téléphonique pour écouter des conversations ou effectuer des appels gratuits aux noms d’autres comptes.
Attaque de virus : Si un serveur voix IP est infecté par un virus, les utilisateurs risquent de ne plus pouvoir accéder au réseau téléphonique. Le virus peut également infecter d’autres ordinateurs connectés au système. 2.3 Evolution de la reconnaissance automatique de locuteur par la voix IP
En 2001, ils ont proposé une approche pour l’extraction des vecteurs caractéristiques directement du signal de parole codé (sans décoder le signal, et puis le traiter) (figure 2.10), en se basant sur le codec G.723.1 qui est principalement utilisé dans la voix sur IP, puis ils ont comparé cette approche avec deux approches classiques de la reconnaissance automatique de locuteur : la reconnaissance automatique des chiffres isolés et la reconnaissance automatique de parole continue en mode indépendant de locuteur, les résultats obtenus montrent que cette nouvelle approche est plus performante que les deux approches classiques, parce que cette méthode a deux avantages, d’une part le système n’est affecté que par la distorsion de l’enveloppe spectrale, et d’autre part, dans le cas de perte de paquets, cette approche devient plus efficace puisqu’elle n’est pas limité à l’erreur de manipulation de codecs.Il est clair qu’avec l’explosion d’internet et de la téléphonie mobile, les moyens de communication ont totalement changé et appellent de nouveaux moyens pour la sécurisation des accès et des échanges de données, c’est sur cet aspect que s’est focalisé l’article [4] qui propose une nouvelle méthodologie pour évaluer les performances de la vérification de locuteur qui peut être affecté par la transmission des données via l’internet (perte de paquets par exemple), en se basant sur la base de donnée XM2VTS qui est considérée comme la norme dans la communauté biométrique audio et visuelle de vérification multimodale (parole et image), ce travail s’est effectué dans le cadre de l’action européenne COST-275.
Dans d’approche classique de l’identification de locuteur par la voix sur IP, après la numérisation de la voix, elle doit être compressée pour l’insérer dans les paquets IP, à la réception, un processus de décompression est nécessaire pour restituer l’information et la transformer en signal sonore (figure 2.11), ce processus de compression et décompression peut générer des problèmes et des limitations en termes de ressources processeur ou mémoire, influencer le débit de flux après décompression ou la taille de fichier résultant, un temps de latence très élevé. Pour remédier à ces problèmes, une nouvelle approche a été proposée qui fait la reconnaissance de locuteur par voix IP en direct, en utilisant une méthode de clustering pour rassembler les vecteurs caractéristiques similaires appelée micro-clustering, le taux de précision de ce nouveau système est de 80%, et il est trois fois plus rapide que l’approche classique basée sur la modélisation des GMM
|
Table des matières
Sommaire
Introduction générale
Chapitre 1 : Etat de l’art sur les systèmes de reconnaissance automatique du locuteur
1.1 Introduction
1.2 Terminologie
1.2.1 Identification & vérification automatique de locuteur
La Vérification Automatique de Locuteur (VAL)
L’Identification Automatique de Locuteur ( IAL)
1.2.2 Dépendance et indépendance du texte
1.2.3 Les variabilités du signal de la parole
1.3 Fonctionnement d’un système de reconnaissance automatique du locuteur
1.3.1 Paramétrisation
Paramètres de l’analyse spectrale
Paramètres prosodiques
Paramètres dynamiques
1.3.2 Traitement post paramétrisation
La méthode RASTA
Feature warping
CMVN (Normalisation moyenne et variance des paramètres cepstraux)
Le feature mapping
VTLN (Vocal Tract Length Normalization)
HLDA (HETEROSCEDASTIC LINEAR DISCRIMINANT ANALYSIS)
LDA (Analyse discriminante linéaire)
HLDA (HeteroscedasticLinear Discriminant Analysis)
Speech enhancement
La soustraction spectrale
Le filtre de Wiener
Filtrage de Kalman
1.3.3 Modélisation
Approche vectorielle
La programmation dynamique
La quantification vectorielle
Approche statistique
Méthodes statistiques du second ordre
Mélange de gaussiennes
Modèles de Markov cachés
Approche prédictive
Approche connexionniste
1.3.4 Décision et mesures de performances
Identification automatique de locuteur
Vérification automatique de locuteur
1.4 Evolution d’un système de reconnaissance automatique de locuteur
1.5 Les approches classiques utilisées dans le système de reconnaissance automatique de locuteur
1.6 Domaines d’application
Conclusion
Chapitre 2 : La reconnaissance automatique du locuteur par la voix IP
2.1 Introduction
2.2 La théorie de la voix sur IP
2.2.1 Architecture de la transmission de la voix IP
2.2.2 Protocoles de la voix
Le protocole H.323
Présentation générale
Les limites du protocole
Le protocole SIP
Présentation générale
Fonctionnement
Avantages et inconvénients
2.2.3 Points forts et limites de la voix sur IP
2.3 Evolution de la reconnaissance automatique de locuteur par la voix IP
2.4 Connexions internationales
Conclusion
Chapitre 3 : Expériences et résultats
3.1 Introduction
3.2 La paramétrisation
3.2.1 MFCC_FB20
3.2.2 DavisSkowronski_MFCC_FB20
3.2.3 HTK_MFCC_FB24
3.2.4 HTK_MFCC_FB26
3.2.5 MFCC_FB40
3.2.6 HFCC_E_FB29
3.3 Le protocole expérimental
3.3.1 Description de la base de données
3.3.2 Décomposition parole/non parole
3.3.3 La phase de la paramétrisation
3.3.4 Apprentissage par GMM
3.3.5 La phase de la décision
3.4 Résultats et tests
3.4.1 Identification du locuteur dans un milieu fermé
3.4.2 Discussion des résultats obtenus
3.4.3 Identification de locuteur en milieu ouvert
3.5 Implémentation de l’interface graphique
Conclusion et perspectives
Bibliographie
Webographie
Télécharger le rapport complet
