Indexation et recherche de documents par le contenu

La représentation des formes est un problème fondamental des nouvelles applications multimédias. Caractériser des objets par leur forme est une tâche délicate dans plusieurs applications de vision par ordinateur. Différentes approches théoriques très intéressantes existent mais qui, néanmoins, restent très coûteuses en terme de temps de calcul. Dans la recherche d’image par le contenu (RIC) «Content-Based Image Retrieval (CBIR)» la forme est considérée comme une caractéristique de bas niveau. Elle doit satisfaire différentes propriétés : invariance, robustesse, compacité, complexité faible et mesurabilité perceptible. Une panoplie de représentations des formes a été proposée pour une variété d’objectifs. Ces méthodes peuvent toutefois être regroupées en deux grandes classes « basée contour » et « basée région ». Les méthodes basées sur le contour, telles que la chaine de codes, la signature des formes, l’approximation polygonale, etc., exploitent les informations de bordure des objets qui sont prépondérantes dans la perception humaine afin de juger les similarités entre formes. Les méthodes basées région, telles que les moments géométriques, les moments de Zernike ou la représentation des surfaces, exploitent au contraire les informations internes à la forme, et par conséquent peuvent être appliquées à plus d’un type de formes.

Dans les domaines où l’image possède un contenu complexe, tel que le mélange entre objets textuels et objets graphiques, les images doivent être tout d’abord segmentées en texte/graphique. On parle alors de séparation texte/graphique. Cette rude besogne est apparue avec les premiers systèmes de tri automatique du courrier où les colis postaux contiennent, en plus des adresses, les cachets et les timbres. Si ces derniers types de graphiques sont assez simples à localiser et à extraire, vu qu’ils possèdent des formes régulières, les graphiques qu’on rencontre dans les images sur internet, par exemple, peuvent avoir différentes formes, tailles, orientations, couleurs, etc.

Les descripteurs

En reconnaissance de formes plusieurs étapes sont nécessaires afin d’identifier les objets en entrées. L’extraction de caractéristiques, ou description, est l’étape la plus importante car elle permet de bien décrire les formes à reconnaître. Une mauvaise caractérisation engendre impérativement des erreurs de classification, par contre une bonne description faciliterait la tâche du classifieur. Cette phase intervient après la segmentation. Une fois l’image segmentée, on peut représenter les régions obtenues par des descripteurs de formes.

Forme et objet

La reconnaissance de formes c’est détecter et localiser des formes dans les images. On ne raisonne plus en terme de “pixel par pixel” mais en terme d’objet. Mais la détection d’objets implique un nombre important de difficultés dont la détermination de critères pertinents permettant la reconnaissance d’un objet d’où l’utilité d’utiliser une mesure qui va représenter l’image par la suite. C’est cette mesure qu’on appelle descripteur de formes ou d’objets.

Descripteurs de formes

Il existe plusieurs classes de descripteurs de formes :

Les descripteurs contours

Ce sont des descripteurs obtenus à partir des contours externes de l’objet.

Le codage de chaîne
A partir d’un point de contour initial, on traverse le contour en codant les points consécutifs par la direction du déplacement. Les chiffres de 0 à 7 sont utilisés pour coder les 8 directions principales. Le codage est plus économique que représenter le contour par les coordonnées des points de contours, et il est invariant à la translation. Pour assurer l’invariance à la rotation on utilise le codage de chaîne différentiel en calculant les différences des directions des déplacements consécutifs en mode 8 connexité. La sélection du point de départ qui donne le code avec la plus petite valeur numérique rend le code invariant à la sélection du point de départ.

Application d’une transformation globale
On peut également caractériser une fonction par une description fréquentielle. Un exemple de description fréquentielle globale est la transformée de Fourier.

L’intérêt de la transformée de Fourier, ainsi que des autres méthodes de description fréquentielle, réside dans le fait que la phase est normalisée, c’est à dire indépendante de la luminosité des images ainsi que de leur contraste.

La transformée de Gabor

La transformation de Fourier est globale : elle permet une localisation en fréquence et non pas en espace. C’est à dire elle ne permet pas de dire quelles fréquences appartiennent à quel point. Ce problème est connu sous le nom du principe d’incertitude. Ce principe montre donc que l’on ne peut pas être à la fois précis en espace et en fréquence. En fait, si un filtre est très précis en espace il l’est très peu en fréquence, et réciproquement. Pour remédier à ce problème et minimiser à la fois l’incertitude en espace et en fréquence, il est préférable d’utiliser un fenêtrage. Gabor [1-2-18] a proposé d’utiliser un fenêtrage gaussien et a démontré qu’un tel fenêtrage est optimal pour obtenir une bonne précision à la fois en fréquence et en espace.

Dans le cadre du calcul d’appariements, une égalité de phase entre deux points signifie une grande probabilité qu’il s’agisse de points à mettre en correspondance, en sachant néanmoins qu’une même valeur de phase peut apparaitre plusieurs fois pour des points différents. Pour être certain qu’une égalité de phase correspond à un appariement exact, une approche multiéchelle s’impose. Toutefois cette mesure est locale en fréquence mais directionnelle en espace. Elle résiste donc malheureusement peu à des rotations et des changements d’échelles faibles. Dans [1-2-19], Wu a alors proposé une implémentation des filtres de Gabor dans plusieurs directions et à plusieurs échelles permettant de résoudre ce problème. Etant donnée que ce filtre donne une information locale de la phase du signal, une utilisation classique est donc par exemple l’estimation de la disparité entre deux images .

Il faut tout de même noter que les résultats obtenus à partir de cette approche dépendent fortement de la taille de la fenêtre employée, c’est-à-dire du support de la Gaussienne. En effet, le choix de ce paramètre est subordonné à une connaissance a priori du signal que l’on désire analyser information que l’on possède rarement lorsque le signal est une image.

L’inconvénient majeur de la Transformée en Ondelettes telle qu’elle vient d’être présentée est sa résolution fréquentielle est d’autant plus mauvaise que l’échelle est petite. Par exemple, un signal ayant un spectre de fréquence étroit et essentiellement localisé aux hautes fréquences ne sera pas bien représenté. Une solution à ce problème a émergé au début des années 90 avec l’apparition de la théorie des décompositions atomiques (ou par paquets) d’ondelettes. Ces méthodes ont pour caractéristique commune l’analyse des signaux suivant trois paramètres physiques : le temps, la fréquence et l’échelle. Citons notamment la méthode de Mallat [1-2- 23; 1-2-24] qui a également étendu ses travaux dans le domaine de la vision par ordinateur au cas des signaux discrets.

Méthodes fractales

Le modèle fractal est basé essentiellement sur l’estimation par des méthodes spatiales de la dimension fractale de la surface représentant les niveaux de gris de l’image. Le calcul de cette dimension suivant plusieurs orientations, procure une structure géométrique anisotrope. La dimension fractale et la lacunarité d’une image sont, entre autres, utilisées pour en caractériser ses textures. Plusieurs méthodes ont été développées pour calculer la dimension fractale comme la méthode de comptage par boîte (Box Counting) et la méthode de dilatation. La dimension de Box-Counting est considérée comme la plus simple méthode pour le calcul de la dimension fractale et elle est appliquée sur des images non vides .

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela clepfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
Chapitre I Les descripteurs
1.1 Introduction
1.2 Forme et objet
1.3 Descripteurs de formes
1.3.1 Les descripteurs contours
1.3.2 Les descripteurs régions
1.3.3 Les Points d’intérêts
1.3.4 La texture
Chapitre II La classification
2.1 Introduction
2.2 Introduction à la classification et à l’apprentissage
2.3 Apprentissage supervisé
2.3.1 Les réseaux de neurones artificiels (ANN)
2.3.2 Les arbres de décision
2.4 Clustering
2.4.1 La méthode des k-means
2.4.2 Fuzzy C-means
2.5 Boosting
2.5 Conclusion
Chapitre III : Conception
3.1. Introduction
3.2. Acquisition et prétraitement
3.2.1. Binarisation globale
3.2.2. Binarisation locale
3.3. Segmentation
3.3.1. Morphologie mathématique
3.3.2. Etiquetage de composantes connexes
3.4. Extraction des caractéristiques
3.5. Classifieurs
3.6 Apprentissage et test
3.6.1 Les bases de données
3.6.2 Les experimentations
3.7 Conclusion
Chapitre IV : Implémentation
4.1. Introduction
4.2. Acquisition et prétraitement
4.3. Segmentation
4.4. Extraction de caractéristiques
4.5. Test et résultats
Conclusions et perspectives
Bibliographie

Lire le rapport complet

Table des matières

Vous pourriez aussi aimer :

Laisser un commentaire Annuler la réponse