Télécharger le fichier pdf d’un mémoire de fin d’études
Comment inclure des noyaux dans la formulation DRSVM
Le DRSVM est un problème qui inclut un processus de sélection de variables intelligent afin de construire un modèle interprétable. Cependant le DRSVM est dans sa formulation ini-tiale un problème linéaire et nous sommes donc limités dans le choix de la représentation des données pendant l’apprentissage. Or, dans une optique d’interprétabilité, il peut être justement intéressant de sortir du cadre linéaire et d’essayer de construire le modèle d’apprentissage, non pas à partir des variables d’origines, mais à partir de variables davantage explicatives appelées prototypes. Plus précisément nous avons recherché des formes de prototypes de manière à re-tenir dans le modèle final des variables symbolisant des relations de dépendance locale entre les points d’observation et les variables. Cela nous a conduit à nous intéresser aux noyaux (voir section 3.1) en raison de leur capacité à changer l’espace de représentation des données et d’englober dans leur formulation des informations relatives à la topologie et à la structure des données.
Une forme de modèle de type kernel appelée kernel basis a particulièrement retenu notre attention car elle permet d’associer des noyaux différents, ce qui est en adéquation avec notre recherche de prototypes spécifiques (voir section 3.2). Nous avons mené une étude théorique via la théorie des RKHS dont les conclusions nous indiquent qu’il est pertinent de nous orien-ter vers une pénalisation de type L1 − L2 (voir section 3.3). Ensuite nous avons réfléchi sur la manière de combiner le DRSVM avec le modèle kernel basis. La présence du terme de régulari-sation en norme 1 rend cependant difficile l’introduction de la kernelisation via les RKHS (voir section 3.4). A la place, nous avons choisi d’adopter une approche dictionnaire afin de coupler le problème DRSVM au modèle kernel basis (voir section 3.4). Enfin nous avons réalisé une série d’expérimentations sur des données synthétiques et des données réelles afin de valider la capacité de notre modèle à réaliser une tâche de classification tout en générant simultanément de l’interprétabilité (voir section 3.5).
Les apports principaux de cette thèse se composent d’une robustification d’un algorithme de chemin de régularisation appelé DRSVM et d’une proposition d’extension dans le cadre kernel basis dans une perspective d’interprétation de modèle.
Formulation du chemin λ1 DRSVM
Nous avons rencontré des problèmes structurels liés à la nature du chemin proposé pour l’algorithme DRSVM. En outre nous avons conjecturé que le paramètre par rapport auquel est construit le chemin n’est pas approprié. Nous avons alors réalisé une étude du problème DRSVM sous sa forme initiale. Mais ce dernier n’étant pas différentiable, il a été nécessaire de mener l’analyse via le prisme de la théorie de la sous-différentielle. Cela nous a conduit à proposer la construction d’un chemin linéaire par morceau par rapport au paramètre de régulari-sation λ1. Nous avons présenté cette approche lors de la conférence ESANN de 2014 [Lachaud et al., 2014].
Reformulation du problème DRSVM par les noyaux
Le DRSVM est, dans sa formulation initiale, un algorithme linéaire. Afin de l’adapter en modèle kernel basis, nous nous sommes interrogés sur la manière d’introduire les noyaux au sein de ce modèle. Le problème faisant intervenir dans sa structure un terme en norme 1, il est difficile d’induire la kernelisation de manière directe par le kernel trick. Aussi, nous avons opté pour une approche par dictionnaire afin d’introduire les noyaux au sein du DRSVM. Plus préci-sément nous avons explicité la forme du dictionnaire approprié afin d’obtenir une solution de la forme kernel basis. Une fois le dictionnaire construit nous avons résolu le problème DRSVM à l’aide de la résolution du chemin en norme 1 développée ci-dessus. Ensuite nous avons proposé pour une application de reconnaissance de formes dans des images un protocole afin d’illustrer l’aptitude de ce modèle à proposer des modèles pertinents et interprétables. Ce deuxième apport fait l’objet d’une publication en cours de rédaction d’un article journal portant sur la fusion du DRSVM et le kernel basis, dont la soumission est prévue début 2016.
Des données à l’information
Les outils et méthodes statistiques
Causalité : si le coefficient de corrélation est simple à calculer, sa réalité physique est plus difficile à interpréter. Une corrélation élevée entre deux variables ne permet pas nécessairement d’expliquer une variable en fonction de l’autre. Il est d’ailleurs possible de générer de nombreux paradoxes en partant du postulat inverse. Afin de qualifier l’explication d’une variable par rap-port à une autre, on parle plutôt de causalité. Cette notion repose sur l’hypothèse implicite que l’une des variables est antérieure à la seconde (la cause précède l’effet) et qu’elle est cause unique de l’effet. Ce paradigme a conduit à la définition du test de Granger [Granger, 1969] qui permet de quantifier le degré de causalité entre deux variables. Notons que la notion de causalité est particulièrement pertinente dans le cadre des série temporelles où la notion d’antériorité est intrinsèquement présente [Eichler, 2012]. Néanmoins la notion de causalité, de part son aspect sémantique étendu demeure une notion ambiguë et de plus l’approche du test de Granger est restreinte au cas mono-causale [Guyon et al., 2007].
– lisibilité : la solution doit être simple, et donc parcimonieuse,
– réalité : le modèle contient un lien réel avec les données,
– interactivité : le modèle évolue en fonction des paramètres.
Nous allons à travers ce prisme étudier quelques algorithmes d’apprentissages classiques et nous interroger sur leur structure vis-à-vis de cette problématique d’interprétabilité de modèle.
Du point de vue de l’interprétabilité, les arbres apportent une solution intéressante car chaque règle ne considère qu’une seule variable discrète ou continue et le modèle, qui peut être affiché, est lisible par un expert. Cependant, la discrimination n’est opérée que par rapport aux variables et non par rapport aux données.
|
Table des matières
Notations
Introduction
1 Apprendre pour expliquer ou pour prédire ?
1.1 Contexte : de la donnée à la connaissance
1.2 Datamining : synthétiser automatiquement les données
1.3 Apprendre un modèle
1.4 Régularisation des modèles d’apprentissage
1.5 Formulation retenue et orientation des travaux
2 Le DRSVM un modèle interprétable ?
2.1 Le DRSVM, un problème de classification avec sélection de variables intelligente
2.2 DRSVM et chemin de régularisation
2.3 Proposition d’un chemin pour le DRSVM, via l’analyse de la sous-différentielle
2.4 Conclusion
3 Kernelisation DRSVM
3.1 Machines à noyaux
3.2 Le modèle kernel basis, une approche multi-noyau
3.3 Formalisation du problème kernel basis via les RKHS
3.4 Kernelisation du DRSVM
3.5 Expérimentations pour le kernel basis
3.6 Conclusion
Conclusion
Annexe
Télécharger le rapport complet
