Télécharger le fichier pdf d’un mémoire de fin d’études
Analyse structurale du site de fixation
Motifs consensuels déjà identifiés
Objectifs du stage
Les mots découverts sont classés selon leurs score en p-value, e-value et Sig. Les premiers mots sont les meilleurs trouvés par l’algorithme et vont servir de graine pour construire une description probable du motif. Ils sont assemblés (outil ‘pattern-assembly’ : http://rsat.ulb.ac.be/pattern-assembly) puis convertis en une matrice poids position (outil‘ convert matrice’ : http://rsat.ulb.ac.be/convert-matrix) pour indiquer la variabilité des résidus à chaque position du motif.
Nous constatons tout d’abord que le nombre de pics du jeu pics_publi par rapport aux nouveaux jeux de données positifs générés à partirdes données brutes de séquençage (pics_new_monomère, pics_new_dimère et pics_new_all) est totalement différent (environ 50000 contre quelques milliers) (Figure 3). Cette différence peut être dû au fait que le filtre de qualité utilisé (qualité des reads >20) a eu come incidence d’éliminer une grande partie des reads. Cependant si les pics sont moins nombreux dans les nouveaux jeux positifs, ils sont plus longs : en moyenne 191 à 567 nucléotides contre 27 nucléotides. Cette augmentation de la taille des pics est plutôt rassurante sachant qu e d’après les analyses structurales du site de liaison de PTBP1 au moins 30 nucléotides sont nécessaire à la fixation de la protéine. Par ailleurs, la taille des pics correspondant à la pro téine PTBP1 fixée sur l’ARN en tant que dimère est trois fois supérieure à ceux de la protéine PTBP1 monomère (566 nucléotides contre 191), ce qui semble cohérent d’un point de vue biologique.
• Composition nucléotidiques des pics
Nous constatons que Pics_publi possède en majoritédes résidus T et C alors que les nouveaux jeux positifs ont des compositions plus équilibrées avec une majorité de T et de A (Figure 4). Comme les reads de départ sont les mêmes, cettedifférence de composition est due aux différentes méthodes de peak-calling. Pour les données de pic_publi aucune information n’est donnée sur la méthodologie employée.
• Motifs présents dans les jeux positifs analysés sanjeu de contrôle négatifs
L’algorithme « oligo-analysis » sur les jeux positifs donne des scores de significativité médiocre (Sig<10) chez tous les jeux positifs et des motifs peu ressemblant à ceux proposés dans la littérature.
En revanche, l’algorithme « dyad-analysis » donne des scores de significativité très élevés notamment à partir du jeu de données pic_publi. Globalement, pour les deux algorithmes, il donc apparaît utile d’utiliser des jeux de contrôle négatifs pour augmenter la significativité des motifs produits.
Avec le jeu pic_publi, dans les 2 analyses, les scores de significativité sont au maximum quelque soient les jeux négatifs sauf pour le jeu négatif shuffle qui a des scores légèrement moins bons. Avec le jeu pics_new_all, les scores sont moins bons dans les deux analyses sauf avec le jeu négatif random_sequence qui donne un motif dyadavec une significativité maximale. Le choix du jeu négatif a donc un impact fort sur la spécificité du motif.
Si l’on compare les motifs fréquents trouvés, lesmots trouvés en fonctions des jeux positifs ne sont pas les mêmes sur les deux jeux. lsI sont globalement plus diversifiés avec pics_publi alors qu’avec les nouveaux jeux, on trouve fortement le dyad tct{n}tct et des mots de type ttctct conforme au motif UYUYU (tytyt) de la littérature.
Les dyads trouvés avec pic_publi sont globalement de type ttc{n}ttc, alors que ceux trouvés avec pics_new_all sont majoritairement de type tct{n}tct. Par rapport à ceux de la littérature, les motifs trouvés avec l’algorithme ligo-analysis pour pics_new_all semblent mieux correspondre à une alternance de tytyt que ce ux de pics_publi.
Au vue de cette première analyse, il n’apparait pas qu’un jeu de contrôle négatif soit plus pertinent que les autres.
|
Table des matières
Introduction
1) La protéine de liaison à l’ARN PTBP1
2) Caractéristiques du site de liaison à la PTBP1
a) Expérience CLIP-Seq : localisation du site de fixation
b) Analyse structurale du site de fixation
c) Motifs consensuels déjà identifiés
3) Objectifs du stage
Matériels et Méthodes.
Matériels
1) Jeu de données positif initial
2) Jeux de données positifs générés à partir des données brutes de séquençage
3) Jeux de données négatifs
a) Jeux négatifs de séquences artificielles
b) Jeux négatifs issus de séquences réelles
Méthodes
1) Oligo-analysis
2) Dyad-analysis
3) Position-analysis
Résultats
1) Analyse et comparaison des jeux positifs
2) Analyse des jeux négatifs
3) Analyse des jeux positifs à l’aide de jeux de contrôle négatifs
4) Pertinence de l’affinement des jeux négatifs
5) Comparaison des jeux monomères et dimères
Discussion
Conclusion
Bibliographie
Télécharger le rapport complet
