Présentation d’un système de reconnaissance de la parole

La parole et son traitement

Paquets d’ondelettes

On peut ajouter des branches à la pyramide de décomposition, ce qui permet de découper les hautes fréquences en plus des basses. Ainsi, on peut aller chercher une résolution en fréquence plus ﬁne, au prix d’une résolution temporelle plus réduite.
Ce découpage du plan temps-fréquence permet d’aller chercher des résolutions variables en fréquence. On sait que le système auditif humain peut être modélisé par une batterie de ﬁltres passes-bande dont la bande passante augmente avec la fréquence centrale. La transformée en ondelettes discrète a une propriété similaire : la résolution fréquentielle peut être réduite aﬁn d’augmenter la résolution temporelle. Ainsi, on peut obtenir une meilleur résolution temporelle dans les hautes fréquences, sans réduire la résolution fréquentielle dans les basses fréquences. Comme on ﬁltre et décime après les ﬁltres passes-hauts, il faut tenir compte de l’inversion des fréquences ainsi causée par les décimateurs. Ce n’est pas important pour la transformation en paquets d’ondelettes, mais c’est essentiel pour relier les fréquences aux paquets.

Modèles du langage

Le phonème est le plus petit élément qui doit changer pour changer la signiﬁcation d’un mot (Boite & Kunt, 1987). Un mot est donc composé de phonèmes. Contrairement aux mots, les phonèmes n’ont pas de sens par eux mêmes. On peut donc observer une structure pyramidale allant de la phrase vers le phonème. De la même manière, un système de reconnaissance automatique de la parole peut utiliser comme symboles fondamentaux des phrases, mots ou phonèmes. Le nombre élevé de phrases possibles rend habituellement la reconnaissance au niveau de la phrase impossible. Selon l’application, le nombre de mots dans le vocabulaire peut permettre la reconnaissance au niveau du mot. Dans les autres cas, il faut reconnaître des phonèmes et ensuite les regrouper en mots et en phrases.
le résultat direct de sa production. Elles ont donc été présentées dans la section 1.3.1, page 7.
Un simple dictionnaire permet de passer du phonème vers le mot. Ce dictionnaire limite les séquences de phonèmes possibles : seules les séquences qui correspondent aux mots qu’il contient sont acceptables. Il faut également regrouper les mots en phrases. Pour ce faire, on utilise un modèle de langage.Selon l’application, ce modèle peut être très simple ou très complexe. Il peut s’agir d’une simple boucle de mots dans laquelle tout les mots du vocabulaire se suivent sans ordre. À l’autreextrême,onpourraitutiliserunmodèlequitientcomptedelasigniﬁcationdesmotsetdu sens de la phrase. Un tel modèle relève cependant plus du domaine de l’intelligence artiﬁcielle que de la reconnaissance de la parole. En pratique, le choix du modèle utilisé va dépendre de l’application. Le modèle permet de limiter l’espace de recherche lors de la reconnaissance.

Grammaire artiﬁcielle

Une grammaire artiﬁcielle sera généralement utilisée quand le domaine d’application permet de limiter les phrases possibles. Il s’agit d’une séries de règles, qui limite les phrases possibles. Ces règles sont exprimées sous la forme d’une machine à états ﬁnis (Huang et al., 2001). On peut ainsi produire un nombre, potentiellement inﬁni, de phrase. Par exemple, un système utilisé pour lecontrôle d’un téléphone cellulaire pourrait utiliser une grammaire artiﬁcielle. Un telsystèmeutiliseraitunnombrelimitédecommandes,suivi d’un nombre limité de paramètres.Ce type de système décritseulement les transitions mots à mots possibles et ne tient pas compte de la probabilité d’une phrase ou d’une transition. Il peut inclure des boucles inﬁnies de mots, par exemple une série de chiffres pour composer un numéro de téléphone quelconque, ou des chemins parallèles, par exemple le nom de la personne plutôt que son numéro de téléphone.

n-Grammes

La grammaire et la structure du langage naturel sont très complexes, et peuvent difﬁcilement être représentées par une grammaire artiﬁcielle. Par contre, on peut voir le langage comme une chaîne de Markov: la probabilité du prochain mot dépend des mots précédents.On utilise alors des n-grammes (Huang et al., 2001). Le «n»de n-Grammes indique le nombre de mots utilisés pour déﬁnir une transition. Ainsi, un monogramme dépend uniquement du mot en question et ne tient pas compte de ce qui précède : la probabilité d’un mot est donc uniquement fonction du mot lui même. Un bigramme tient compte du mot précédent : la probabilité d’un mot est donc fonction du mot et du mot qui le précède..

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela clepfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
CHAPITRE 1 La parole et son traitement
1.1 Introduction
1.2 Particularités de la parole
1.2.1 Non-stationnarité de la parole
1.3 Production de la parole
1.3.1 Phonème
1.4 Perception de la parole
1.5 Traitement de la parole
1.6 Conclusion
CHAPITRE 2 Outils mathématiques
2.1 Introduction
2.2 Transformée de Fourier discrète
2.3 Transformée de Fourier court-terme
2.3.1 Effet de la fenêtre
2.4 Transformée en ondelettes discrète
2.4.1 Algorithme de Mallat
2.4.2 Décimation d’un signal
2.5 Paquets d’ondelettes
2.6 Modèles du langage
2.6.1 Grammaire artiﬁcielle
2.6.2 n-Grammes
2.7 Chaînes de Markov cachées
2.8 Analyse discriminante
2.9 Conclusion
CHAPITRE 3 Reconnaissance de la parole
3.1 Introduction
3.2 Présentation d’un système de reconnaissance de la parole
3.3 Reconnaissance robuste
3.3.1 Utilité de la reconnaissance robuste
3.3.2 Difﬁcultés et variations
3.3.3 Types d’approche pour améliorer la robustesse
3.4 Coefﬁcients à spectre relatif pour la reconnaissance robuste
3.4.1 Coefﬁcients cepstraux avec fréquence de Mel
3.4.2 Modèle auto-régressif
3.4.3 Prédiction linéaire perceptuel et à spectre relatif
3.4.4 Compression lin-log pour la robustesse au bruit additif
3.5 Conclusion
CHAPITRE 4 Méthode proposée
4.1 Introduction
4.2 Détails de la méthode proposée
4.3 Analyse en paquets d’ondelettes
4.4 Filtres passe-bande
4.5 Ajustement de la fréquence d’échantillonnage
4.6 Construction du vecteur-observation
4.6.1 Construction par moyenne
4.6.2 Construction par différence
4.6.3 Construction par dérivées d’ordre supérieurs
4.7 Conclusion
CHAPITRE 5 Résultats expérimentaux
5.1 Introduction
5.2 Bases de données
5.3 Outils d’entrainement et de test
5.4 Descriptions des tests
5.4.1 Procédure d’entrainement
5.5 Résultats
5.6 Discussion
CONCLUSION
BIBLIOGRAPHIE

Télécharger le rapport complet

Table des matières

Vous pourriez aussi aimer :

Laisser un commentaire Annuler la réponse