Documentation Documentation
Identifiant IdRef : 213314282
Notice de type Rameau

Point d'accès autorisé

Informations

Langue d'expression : Francais
Date de naissance :  1995
Note publique d''information : 
Avec les multiples projets de séquencage de génomes, les biologistes disposent d'une abondance de séquences d'ADN d'organismes divers. Il est nécessaire de leur fournir des outils statistiques et informatiques pour les aider à analyser ces séquences. Un moyen d'en extraire de l'information est d'identifier des mots dont la fréquence dévie largement de celle prédite par un modèle. Les modèles de chaînes de Markov stationnaires ou 3-périodiques sont adaptés pour rendre compte de la succession des bases dans une séquence d'ADN. Deux approximations de la loi du nombre d'occurrences d'un mot sont proposées, suivant que l'espérance du comptage dans le modèle choisi tend vers l'infini lorsque l'on fait tendre la longueur de la séquence vers l'infini, ou au contraire qu'elle reste bornée. Dans la première partie, nous proposons des statistiques asymptotiquement gaussiennes centrées réduites construites sur l'écart entre le comptage observé et une estimation du comptage. Le problème délicat est la normalisation de cette différence avec notamment un calcul de variance. Dans la seconde partie, l'approximation de la loi du comptage d'un mot par une loi de poisson composée est démontrée sous l'hypothèse d'événement rare, en utilisant la méthode de Chen-Stein. Une étude soigneuse de la structure périodique des mots est nécessaire pour tenir compte des chevauchements éventuels des mots. Dans la dernière partie, nous utilisons ces approximations pour identifier des mots de fréquence exceptionnelle dans des séquences d'ADN de E. Coli et B. Subtilis, et nous proposons quelques interprétations.

Notices d'autorité liées

Autres identifiants

Utilisation dans Rameau

Le point d'accès peut être employé dans un point d'accès sujet

... Références liées : ...