Télécharger le fichier pdf d’un mémoire de fin d’études
Algorithmique pour l’agrégation de classements
Représentation des permutations à l’aide de graphes
Algorithmes exacts
Plusieurs techniques de partitionnement présentes dans la littérature et détaillées dans cette section permettent un tel partitionnement.
Définition 2.2.1. Critère de Condorcet étendu et partition de Truchon [83]
Truchon définit le critère de Condorcet étendu de la manière suivante. Soit R une liste contenant un nombre impair de classements complets de U et T = [T1; :::; Tk] une partition ordonnée de U telle que 8i < j et 8(x; y) 2 Ti Tj, x est avant y dans une majorité de classements. Alors, 8i < j et 8(x; y) 2 Ti Tj, x est avant y dans tout classement consensuel optimal 2. Une telle partition sera appelée partition de Truchon.
Reprenons nos trois permutations présentées en Table 2.1. On voit que A est avant tous les autres éléments dans une stricte majorité de classements. Ainsi, T = [fAg; fB; C; Dg] est une partition de Truchon. On peut en déduire que A est avant B, C et D dans toutes les solutions optimales.
Il est important de préciser que même si les classements de départ peuvent contenir des égalités, l’objectif de Truchon est de rompre ces égalités afin de produire une permutation de U. Il est donc intéressant de se demander si le critère de Condorcet étendu peut être utilisé dans un cadre plus large, comme par exemple la distance de Kendall- généralisée avec pénalité p (voir Définition 1.3.1 et [47]).
Les auteurs de [19] déterminent une partition de Truchon en calculant les composantes fortement connexes d’un graphe. La complexité de cet algorithme est (jRj jUj2).
Définition 2.2.2. Un élément x est dit propre en proportion q si pour tout élément y 6= x, soit x est avant y dans une proportion de classements supérieure ou égale à q, soit y est avant x dans une proportion de classements supérieure ou égale à q.
Cas q = 0.75. Les auteurs montrent que si x est un élément propre en proportion 0:75, alors tous les éléments placés avant x dans au moins 75% des permutations sont placés avant x dans tous les classements consensuels optimaux et tous les éléments placés après x dans au moins 75% des permutations sont placés après x dans tous les classements consensuels optimaux. Ceci permet donc de calculer une partition ordonnée de U en trois parties [B1; B2; B3] avec B1 correspondant à l’ensemble des éléments placés avant x dans au moins 75% des permutations, B2 = fxg et B3 correspondant à l’ensemble des éléments placés après x dans au moins 75% des permutations. Intuitivement, si un élément y est avant x dans au moins 75% des permutations et qu’un élément z est après x dans au moins 75% des permutations, alors y est nécessairement avant z dans au moins la moitié des permutations.
Cas q = 2/3. Betlzer et al. ont également démontré dans [17] que si x est un élément propre en proportion 23 , alors il existe un classement consensuel optimal r tel que tous les éléments placés avant x dans au moins 23 des permutations sont placés avant x dans r et tous les éléments placés après x dans au moins 23 des permutations sont placés après x dans r .
Si l’objectif est de calculer un classement consensuel le plus rapidement possible, ce critère sera préféré au précédent. En effet, un élément propre en proportion 0.75 est nécessairement un élément propre en proportion 23 mais la réciproque n’est pas nécessairement vraie. Les éléments propres en proportion 23 sont donc susceptibles de partitionner en un plus grand nombre de parties. Cependant, il est tout à fait possible que des classements consensuels optimaux ne respectent pas le partitionnement obtenu avec les éléments propres en proportion 23 . Cette méthode de partitionnement n’est donc pas à utiliser si l’objectif est de mettre en lumière des points communs entre l’ensemble des classements consensuels optimaux.
Il est intéressant de noter que d’une part le critère de Condorcet étendu et d’autre part le critère de Betzler pour le cas q = 0:75 ont le même objectif à savoir calculer une partition ordonnée des éléments à trier telle que tout clas-sement consensuel optimal respecte cette partition. Nous montrerons dans le Chapitre 3 que ces deux critères sont complémentaires. En effet, certains jeux de données peuvent être partitionnés par le critère de Condorcet étendu mais pas par les éléments propres tandis que d’autres peuvent au contraire être partitionnés par les éléments propres mais pas par le critère de Condorcet étendu.
Ces techniques de partitionnement sont particulièrement intéressantes à coupler aux algorithmes exacts afin de réduire leur temps d’exécution lorsque le nombre d’éléments à trier est grand. Si chaque sous-problème obtenu est de taille suffisamment petite pour qu’un algorithme exact soit utilisé, un classement consensuel optimal est alors obtenu. Malheureusement, ces techniques de partitionnement souffrent de deux défauts majeurs. Nous verrons dans le Chapitre 3 que le critère de Condorcet étendu et les éléments propres en proportion 75% permettent rarement un partitionnement en de nombreux sous-problèmes sur les jeux de données réels. Par ailleurs, aucune méthode de partitionnement décrite dans cette section n’est compatible avec la distance de Kendall- généralisée pour les classements avec égalités. A notre connaissance, aucune n’a été adaptée pour les classements incomplets avec égalités.
Partitionnement et « Indépendance locale des alternatives non pertinentes »
Le critère d’équité appelé Local Independence of Irrelevant Alternatives abrégé LIIA et traduit en français par In-dépendance locale des alternatives non pertinentes est un critère d’équité qui est respecté par la méthode Kemeny-Young dans le cas où les classements dont on cherche un classement consensuel sont des permutations de U [86].
Propriété 2.2.1. Soit un sous-ensemble S U de k éléments tel que les éléments de S correspondent aux k premiers ou k derniers éléments dans un classement consensuel optimal r . Soient r0 le classement r duquel seuls les éléments de S ont été conservés et R0 la liste de classements de S correspondant à la liste de classements R dont seuls les éléments de S ont été conservés. Autrement dit, r0 est la projection de r sur S et R0 est la projection de R sur S. Alors, r0 est un classement consensuel optimal pour R0.
Illustration 2.2.1. Pour illustrer le LIIA, prenons une liste R = [r1; r2; r3; r4] constituée des quatre permutations
suivantes :
r1 = [fAg; fCg; fDg; fBg]
r2 = [fBg; fAg; fCg; fDg]
r3 = [fAg; fBg; fDg; fCg]
r4 = [fBg; fDg; fCg; fAg]
Un algorithme exact nous indique que r = [fAg; fBg; fCg; fDg] est un classement consensuel optimal. Reti-rons maintenant l’élément D de ce dernier. On obtient r0 = [fAg; fBg; fCg]. Grâce au LIIA, on sait que r0 est un classement consensuel optimal pour la liste R0 = [r10; r20; r30; r40] constituée des quatre permutations suivantes (les mêmes que précédemment, mais les D ont été retirés) :
r10 = [fAg; fCg; fBg]
r20 = [fBg; fAg; fCg]
r30 = [fAg; fBg; fCg]
r40 = [fBg; fCg; fAg]
Une conséquence directe du LIIA est la suivante. Prenons S U de taille k et supposons qu’une condition suffisante permette d’établir qu’il existe un classement consensuel optimal r pour R tels que l’ensemble des k premiers éléments de r soit égal à S (on n’a pas besoin de connaître l’ordre des éléments de S dans r ). Appelons R1 la liste de classements correspondant à R dont seuls les éléments de S ont été conservés et R2 la liste de classements correspondant à R dont tous les éléments de S ont été retirés. Alors, concaténer un classement consensuel optimal de R1 et un classement consensuel optimal de R2 fournit un classement consensuel optimal pour R. Ainsi, grâce au LIIA, toute propriété garantissant qu’il existe un classement consensuel optimal commençant par un sous-ensemble de U donné permet de partitionner R en deux sous-problèmes indépendants.
Le fait que la méthode Kemeny-Young respecte le LIIA garantit également qu’il n’existe aucun algorithme polyno-mial permettant de trouver l’élément en première position d’un classement consensuel optimal sur n’importe quelle instance (à moins que P = N P ). En effet, si un tel algorithme existait, il suffirait de trouver ce premier élément, de le retirer de R, puis de recommencer récursivement à chercher le premier élément pour le « nouveau R » et ainsi de suite. Ainsi, le classement consensuel optimal se construirait pas à pas, et on obtiendrait donc un classement consensuel optimal par un algorithme polynomial.
|
Table des matières
1 L’agrégation de classements : définition du problème
1.1 Les classements
1.1.1 Une définition générale de classement
1.1.2 Différentes caractéristiques pour les classements
1.1.3 Positions relatives des éléments dans un classement
1.2 Agrégation de permutations selon la méthode Kemeny-Young
1.2.1 Distance de Kendall-τ
1.2.2 Le score de Kemeny
1.2.3 Classement consensuel optimal
1.2.4 Complexité du problème
1.3 Adaptation pour les classements avec égalités
1.3.1 Distance de Kendall-τ généralisée avec pénalité p
1.3.2 Score de Kemeny généralisé avec pénalité p
1.3.3 Classement consensuel optimal
1.3.4 Complexité de l’agrégation de classements avec égalités
1.3.5 D’autres généralisations aux classements complets
1.4 Conclusion
Résumé du chapitre
2 L’agrégation de classements : État de l’art
2.1 Algorithmique pour l’agrégation de classements
2.1.1 Représentation des permutations à l’aide de graphes
2.1.2 Algorithmes exacts
2.1.3 Algorithmes d’approximation et heuristiques
12.1.4 Récapitulatif des différents algorithmes utilisés pour l’agrégation de classements
2.2 A l’interface entre algorithmique et choix social : les techniques de partitionnement
2.2.1 Truchon et le critère de Condorcet étendu
2.2.2 Les éléments propres
2.2.3 Lien entre techniques de partitionnement et critères d’équité en théorie du choix social
2.3 Gestion des données manquantes
2.3.1 Projection et unification
2.3.2 Généralisations de la distance de Kendall-τ et du score de Kemeny
2.4 Conclusion : enjeux pour l’agrégation de classements
Résumé du chapitre
3 Partitionnement à base de graphes et critère de robustesse
3.1 Introduction
3.1.1 Contexte biologique
3.1.2 Contributions
3.2 Exemple et intuition quant aux enjeux
3.2.1 Un exemple inspiré par les données biologiques
3.2.2 Une première intuition quant au calcul du classement consensuel
3.2.3 Intuition quant à l’évaluation de la robustesse des classements consensuels
3.3 Représentation des classements par paires d’éléments
3.3.1 Définitions préliminaires
3.3.2 Nouvelle formulation du score de Kemeny associé à la pseudo-distance
3.3.3 Matrice des coûts par paires
3.4 Un nouveau graphe pour représenter les classements
3.4.1 Ge : graphe compatible avec le score de Kemeny généralisé à la pseudo-distance
3.4.2 Gc : graphe des composantes fortement connexes de Ge
3.5 Utilisation du graphe Gc pour calculer un classement consensuel
3.5.1 Propriété fondamentale de Gc
3.5.2 Un algorithme de partitionnement pour l’agrégation de classements
3.6 Frontières et partitionnement robuste
3.6.1 Notion de frontière
3.6.2 Graphe robuste des éléments Gr et première condition suffisante pour le calcul de frontières
3.6.3 Combiner Ge et Gr pour trouver plus de frontières
3.6.4 Comparaison avec l’état de l’art
23.7 Nouvelle version de ConQuR-Bio
3.7.1 Le logiciel ConQuR-Bio
3.7.2 ConQuR-BioV2 : prise en compte des retours des biologistes
3.8 Évaluation quantitative des algorithmes ParCons et ParFront
3.8.1 Jeux de données considérés
3.8.2 Évaluation de ParCons sur des données biologiques
3.8.3 Évaluation de ParFront sur des données biologiques
3.9 Intérêt de l’agrégation de classements pour les données biologiques
3.9.1 Jeux de données considérés et gold standards
3.9.2 Résultats obtenus par ConQuR-BioV2 par rapport à Gene du NCBI
3.10 Conclusion
Résumé du chapitre
4 Modèle général pour l’agrégation de classements incomplets
4.1 Introduction
4.1.1 Plusieurs méthodes pour gérer les données manquantes
4.1.2 Comparaison des méthodes
4.1.3 Besoin d’apporter un regard qualitatif sur les données
4.1.4 Besoin d’un cadre algorithmique pour les classements incomplets
4.1.5 Contributions
4.2 Modèle pour l’agrégation de classements incomplets
4.2.1 Définition du modèle
4.2.2 Généricité du modèle
4.2.3 Classes d’équivalence et complexité
4.3 Algorithmes pour l’agrégation de classements incomplets
4.3.1 Un algorithme exact en PLNE
4.3.2 Méthodes de partitionnement
4.3.3 Adaptation des heuristiques de Kemeny pour les KCFs
4.4 Axiomatisation du modèle présenté
4.4.1 Lemmes préliminaires
4.4.2 Définitions préliminaires
4.4.3 Critère de majorité
4.4.4 Critère de Condorcet
4.4.5 Généralisation du critère de Condorcet
34.4.6 Indépendance locale des alternatives non pertinentes
4.5 CoRankCo : plateforme pour l’agrégation de classements
4.5.1 Présentation du logiciel
4.5.2 Utilisation du logiciel
4.5.3 Un package python pour l’agrégation de classements incomplets avec égalités
4.6 Évaluation du modèle : influence du choix de la KCF
4.6.1 Jeux de données considérés
4.6.2 Interprétation des éléments manquants à travers la différence B[5] – B[4]
4.6.3 Influence des vecteurs de pénalité sur la capacité à partitionner
4.6.4 Conclusions des expériences menées
4.7 Conclusion
Résumé du chapitre
Conclusion
Télécharger le rapport complet
