Choix de modèle sans vraisemblance ; application à la prédiction de structure des protéines

Description
Choix de sans ; application à la prédiction de structure des François RODOLPHE, Aude GRELAUD, Jean-Michel MARIN, Christian P. ROBERT, Jean-François TALY INRA Mathématique, Informatique et Génome (MIG)

Please download to get full document.

View again

of 57
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

General

Publish on:

Views: 12 | Pages: 57

Extension: PDF | Download: 0

Share
Transcript
Choix de sans ; application à la prédiction de structure des François RODOLPHE, Aude GRELAUD, Jean-Michel MARIN, Christian P. ROBERT, Jean-François TALY INRA Mathématique, Informatique et Génome (MIG) Cérémade, Université Paris Dauphine Laboratoire de Statistique, CREST-INSEE I3M, Université Montpellier 2 19 septembre 2014 Prédiction de la structure tridimensionnelle des Comment inférer sur la structure 3D des? expérimentalement : précis, mais long, parfois difficile, et coûteux. Le nombre de séquences protéiques connues augmente très vite, les méthodes expérimentales ne peuvent pas suivre. in silico : par homologie (séquence, alignement multiple, threading) par modélisation physico-chimique et statistique (ab initio ou de novo.) Un problème d aide à la décision Parfois les méthodes in silico proposent un convenable et unique. ne trouvent aucun de structure : la requête est candidate pour une détermination expérimentale. ne permettent pas de choisir entre quelques de scores similaires. En ce dernier cas, pour aider à la décision, nous proposons une méthode fondée sur l exploitation d une information supplémentaire. Quelle information supplémentaire? Haiwei Guo, Juno Choe, Lawrence A. Loeb (PNAS 2004) Expérience de mutagenèse expérimentale. Protéine cible : 3-methyladenine DNA glycosylase (AAG). Un grand nombre de mutations aléatoires sont produites. Pour chaque séquence on teste s il y a conservation ou perte de la fonction. On construit un index de mutabilité pour résumer l expérience. Mutabilité La mutabilité est une variable régionalisée Il existe un lien entre structure 3D et mutabilité : Des sites voisins sur la structure 3D tendent à posséder des mutabilités similaires. En pratique la mutabilité est inobservable, mais elle est très fortement corrélée à la stabilité phylogénétique qui est observable. Csaba Pál, Balázs Papp, Martin J. Lercher (Nature Reviews Genetics 2006) Mutabilité et stabilité phylogénét. Comment faire pratiquement? On extrait des bases de données toutes les séquences homologues à la requête que l on y trouve. On réalise un alignement multiple de ces séquences. On estime en chaque site une vitesse d évolution en unités arbitraires. On projette les vitesses d évolution sur chaque de structure en compétition. Plus cette projection est organisée (les voisins ont des vitesses proches) plus forte est l indication en faveur de cette structure. Représentation des 3D La structure 3D d une protéine est résumée par son graphe de contact. Dans ce graphe, les noeuds sont les sites (occupés par les acides-aminés) et les arêtes relient les sites qui sont voisins dans la structure. Mise en forme du problème Pour une séquence requête, on a quelques structure et on veut décider si l une d elles convient. En termes statistiques, c est un problème de choix de. Mise en forme du problème Pour une séquence requête, on a quelques structure et on veut décider si l une d elles convient. En termes statistiques, c est un problème de choix de. Chaque prédiction est représentée par un graphe de contact Une variable est attachée à la séquence. Comment définir la crédibilité de chaque prédiction à partir de l observation des vitesses d évolution? Hypothèse : l état d un site ne dépend que de celui de ses voisins dans la structure : Champ de Mise en forme du problème Pour une séquence requête, on a quelques structure et on veut décider si l une d elles convient. En termes statistiques, c est un problème de choix de. Chaque prédiction est représentée par un graphe de contact Une variable est attachée à la séquence. Comment définir la crédibilité de chaque prédiction à partir de l observation des vitesses d évolution? Hypothèse : l état d un site ne dépend que de celui de ses voisins dans la structure : Champ de Mais... Modèles difficiles à manipuler... Ce qui rend le choix de plus difficile : partie du doctorat de Aude Grelaud (MIG, CEREMADE). : généralisation des chaînes de property defined according to: order on indices Formulation as a chain neighbors Formulation as a field chain : généralisation des chaînes de chain Tree fields Lattice Network Hammersley-Clifford G est un graphe non orienté. Deux noeuds i et j sont voisins ssi ils sont connectés par une arête. V(i) est l ensemble des noeuds voisins de i. Une clique c est un ensemble de noeuds qui sont tous voisins. X i est l état du processus au site i. Propriété de : P[X i = x i X j,j I i] = P[X i = x i X j,j V(i)] Hammersley-Clifford : un champ de sur G est un processus de Gibbs dont le potentiel ne dépend que de l état des cliques. P[X = x] = 1 Z e c C U c (x) où Z = ξ e c C U c (ξ) est la fonction de partition. Cliques chain fields Lattice Tree Network Vraisemblance d un champ de Vraisemblance : où : f(x θ) = 1 exp{ Z θ U c (x,θ)} c C x X R n est l état du processus, U c (,θ) le potentiel défini sur la clique c, θ R p le paramètre associé au, Z θ = ξ X exp{ c C U c (ξ,θ)} la fonction de partition. Vraisemblance d un champ de Vraisemblance : où : f(x θ) = 1 exp{ Z θ U c (x,θ)} c C x X R n est l état du processus, U c (,θ) le potentiel défini sur la clique c, θ R p le paramètre associé au, Z θ = ξ X exp{ c C U c (ξ,θ)} la fonction de partition. Z θ est généralement incalculable. Un champ de simple : le de Potts L état en chaque site, x i, est discret : x i {1,...K }. Le potentiel ne dépend que des cliques d ordre 2 (paires de voisins) Le potentiel est une fonction simple de l état des paires de voisins : U(x,θ) = c U c (x,θ) = θ T h(x c(1),x c(2) ) c donc : U(x,θ) = θ T S(x) avec : S(x) = i i h(x i,x i ) où i i signifie que i et i sont voisins. Un champ de simple : le de Potts L état en chaque site, x i, est discret : x i {1,...K }. Le potentiel ne dépend que des cliques d ordre 2 (paires de voisins) Le potentiel est une fonction simple de l état des paires de voisins : U(x,θ) = c U c (x,θ) = θ T h(x c(1),x c(2) ) c donc : U(x,θ) = θ T S(x) avec : S(x) = i i h(x i,x i ) où i i signifie que i et i sont voisins. Modèle de Potts : h(x i,x i ) = I {xi x i }. Sélection de x est la variable régionalisée observée. Un est constitué d un graphe et d un paramètre. Il leur est associé un potentiel. 1 1 potentiel où : f m (x θ m ) = 1 exp( θ T m Z S m(x)), m = 1...M θm,m S m ( ) est la fonction de potentiel du m, θ m est un paramètre d échelle associé au m, Z m,θm est la fonction de partition. Modélisation Dans un cadre bayesien : Vraisemblance : (x θ m,m) f m (x θ m,m) Distributions a priori : m π(m) (θ m m) π m (θ m ) Objectif : Distribution a posteriori de m, P(M = m x). Critère de sélection : facteur de Bayes BF m0 /m 1 (x) = P(M / = m 0 x) π(m 0 ) P(M = m 1 x) π(m 1 ) = P(x M = m 0) P(x M = m 1 ) R fm0 (x θ m0,m 0 )π 0 (θ 0 )dθ 0 = R fm1 (x θ m1,m 1 )π 1 (θ 1 )dθ 1 Interprétation : Si BF m0 /m 1 (x) 1, évidence en faveur du m 0, Si BF m0 /m 1 (x) 1, évidence en faveur du m 1. Facteur de Bayes Ici, R exp{ θ T BF m0 /m 1 (x) = 0 S 0 (x)}/z θ0,0π 0 (θ 0 )dθ 0 R exp{ θ T 1 S 1 (x)}/z θ1,1π 1 (θ 1 )dθ 1 calcul direct impossible, méthodes MCMC non applicables, = Utilisation de méthodes sans. : idée centrale On veut inférer sur la loi a posteriori du paramètre ou d autres quantités qui dépendent de la. La est incalculable. Mais le est simulable (un champ de, comme ici, est simulable par échantillonnage de Gibbs). On va approcher la loi recherchée par un échantillon obtenu selon cette loi (ou presque...). Echantillonnage exact par rejet 1 Générer θ selon le prior π. 2 Générer x selon f( θ ). 3 Accepter θ si x = x 0. Résultat : Etapes 1 et 2 : Simulation d une paire (θ,x ) de densité π(θ )f(x θ ) π(θ x ). Etape 3 : accepter si x = x 0 la densité de θ est exactement π(θ x 0 ). Limitation : Taux d acceptation faible, éventuellement nul dans le cas continu! Echantillonnage avec tolérance ε 1 Générer θ selon le prior π. 2 Générer x selon f( θ ). 3 Accepter θ si ρ(x,x 0 ) ε. Résultat :(θ 1,,θ n ) a pour densité π(θ ρ(x,x 0 ) ε). Si ε suffisamment petit, on espère une bonne approximation de π(θ x 0 ). (Pratiquement q 1% sur les distances) Limite : comment définir ρ quand x est de grande dimension? Calcul bayesien approché (Approximate Bayesian Computation : ABC) Soit T un vecteur de statistiques-résumé : 1 Générer θ selon le prior π. 2 Générer x selon f( θ ). 3 Accepter θ si ρ(t(x ),T(x 0 )) ε. Résultat :(θ 1,,θ n ) a pour densité π(θ ρ(t(x ),T(x 0 )) ε). Si ε suffisamment petit et T bien choisie, on espère une bonne approximation de π(θ x 0 ). Comment choisir T? Choix de T T bon résumé de x, Idéal : statistique exhaustive. Si T est exhaustive et ε = 0 : ABC est exact, car π(θ ρ(t(x ),T(x 0 )) = 0) = π(θ x = x 0 ) Choix de par ABC 1 Générer m selon π(m = m). 2 Générer θ m selon π m ( ). 3 Générer x selon f m ( θ m ). 4 Accepter (m,θ m ) si ρ(t(x ),T(x 0 )) ε. Résultat :(m,θ m ) est distribué selon π { (m,θ m ) ρ(t(x ),T(x 0 )) ε }. Estimation du facteur de Bayes Approximation de Monte Carlo de P(M = m x 0 ) : P(M = m x 0 ) = {m i = m} / N Estimation du facteur de Bayes correspondant : BF m0 /m 1 (x 0 ) = ˆP(M = m 0 x 0 ) ˆP(M = m 1 x 0 ) π(m = m 1) π(m = m 0 ) = {mi = m 0 } {m i = m 1 } π(m = m 1) π(m = m 0 ) Estimation du facteur de Bayes Approximation de Monte Carlo de P(M = m x 0 ) : P(M = m x 0 ) = {m i = m} / N Estimation du facteur de Bayes correspondant : BF m0 /m 1 (x 0 ) = ˆP(M = m 0 x 0 ) ˆP(M = m 1 x 0 ) π(m = m 1) π(m = m 0 ) Pratiquement, on calcule : = {mi = m 0 } {m i = m 1 } π(m = m 1) π(m = m 0 ) BF m0 /m 1 (x 0 ) = 1+ {mi = m 0 } 1+ {m i = m 1 } π(m = m 1) π(m = m 0 ) que l on débiaise ultérieurement. de Potts Choix de la statistique-résumé T : S m : est exhaustive pour θ m, S = (S 1,,S M ) : exhaustive pour (θ 1,,θ M ), les champs de possèdent une propriété spécifique : 1 P(X = x S(x) = s,m = m) = A(x) = P(X = x S(x) = s) aveca(x) = {ξ X : S(ξ) = S(x)}. = cardinal (cas discret) ; mesure appropriée (cas continu). (S 1,,S M ) exhaustive pourm. T = (S 1,,S M ) Illustration simple M0 : cas iid, Bernouilli(p) f 0 (X θ 0,m = 0) = exp(θ 0 i 1 {xi =1} ) (1+exp(θ 0 )) n = 1 Z θ0,0 exp(θ 0 i 1 {xi =1}) p = exp(θ 0) 1+exp(θ 0 ) M1 : Chaîne de de matrice de transition P f 1 (X θ 1,m = 1) = exp(2θ 1 n 1 i=1 1 {x i =x i+1 } ) = (1+exp(2θ 1 )) n 1 1 exp(2θ Z 1 θ1 n 1,1 i=1 1 {x i =x i+1 } ) ( exp(2θ1 ) 1+exp(2θ P = 1 ) 1 1+exp(2θ 1 ) 1 1+exp(2θ 1 ) exp(2θ 1 ) 1+exp(2θ 1 ) Choix de Choix des priors : s équiprobables, distribution uniforme des paramètres, Statistique-résumé : T = ( i 1 {xi =1}, n 1 i=1 1 {x i =x i+1 }) statistique exhaustive pour (m,θ 0,θ 1 ) Résultats (1) P(M=0 x) ^ P(M=0 x) P(M=0 x) ^ P(M=0 x) FIG.: Comparaison de la vraie valeur P(M = 0 x 0 ) avec P(M = 0 x 0 ) sur séquences de longueur 100, simulées pour 2 s 1000 choix différents du paramètre selon son prior, avec un ensemble de propositions (simulations) à chaque fois. La diagonale est en rouge. (Gauche) : rejet exact. (Droite) : avec les 1% plus petites distances. Résultats (2) BF ^ BF FIG.: Comparaison de la vraie valeur BF 0/1 avec BF0/1 sur séquences de longueur 100, simulées pour 2 s 1000 choix différents du paramètre selon son prior, avec un ensemble de propositions (simulations) à chaque fois. La diagonale est en rouge. (Gauche) : rejet exact. (Droite) : avec les 1% plus petites distances. BF ^ 01 BF 01 Test pour la prédiction de structure la variable régionalisée utilisée ici est l hydrophobicité (2 catégories). Les acides aminés hydrophobes sont surtout enfouis, les hydrophiles surtout exposés. On recode la séquence d AA en un vecteur de catégories : caa agg tgc tta x 1 x 2 x 3 x 4 M candidates. x i = ±1 Chaque structure correspond à un de Potts où S m (x) = i m i I {xi x i } Il n y a que 2 catégories : c est un de Ising Les données Pour deux de structure native connue NS, on simule un résultat de threading ambigü. Parmi les s de structure proposés par le logiciel FROST, 4 prédictions ont été sélectionnées avec des scores non décisifs, qui correspondent à quatre différentes situations : séquences similaires (ST1, ST3) ou dissimilaires (ST2, DT) repliements similaires (ST1, ST2) ou dissimilaires (ST3, DT) 1tqgA La protéine 1tqgA de Thermotoga maritima (impliquée dans la transduction de signaux) Structure native (NS) en gris 4 candidates proposées par FROST 1tqgA % seq. Id. TM-score FROST-score 1i5nA (ST1) ls1A1 (ST2) jr8A (ST3) s7oA (DT) % seq. Id. : pourcentage d identité de séquence avec la requête. TM-score. : mesure de similitude entre les prédites et la structure native. 0.4 : similitude entre les, 0.17 : pas de similitude. FROST-score : mesure de qualité de l alignement de la séquence requête avec la structure candidate. 9 : bon alignement, 7 mauvais alignement. 1tqgA, estimation des FB NS/ST1 NS/ST2 NS/ST3 NS/DT FB P(M = NS x 0 ) 1k77A La protéine 1k77A de Escherichia coli (oxygenase putative) Structure native (NS) en gris 4 candidates proposées par FROST ST2 ST1 ST1 ST3 ST2 DT DT ST3 1k77A % seq. Id. TM-score FROST-score 1i60A (ST1) qtwA (ST2) qpoA1 (ST3) m4oA (DT) % seq. Id. : percentage of sequence identity with the query. TM-score. : mesure de similitude entre les prédites et la structure native. 0.4 : similitude entre les, 0.17 : pas de similitude. FROST-score : mesure de qualité de l alignement de la séquence requête avec la structure candidate. 9 : bon alignement, 7 mauvais alignement. 1k77A, estimation des FB NS/ST1 NS/ST2 NS/ST3 NS/DT BF P(M = NS x 0 ) Le calcul bayesien par approximation rend possible le choix de sans calcul de la, mais pas toujours! Les champs de possèdent une statistique exhaustive, T(x), (très simple dans le de Potts), pour le paramètre complet du choix de : ici (M,θ m ). grâce à quoi P(M = m 0 x 0 ) P(M = m 1 x 0 ) = P(M = m 0 T(x 0 )) P(M = m 1 T(x 0 )) Un contre-exemple m P : n-échantillon Poisson et m G : n-échantillon Geométrique f P (x θ) = e nθ n i=1 θx i x i! = θ n i=1 x i e nθ 1 n i=1 x i! f G (x θ) = (1 θ) n n i=1 θ x i = θ n i=1 x i (1 θ) n S(x) = n i=1 x i exhaustive deux s, cependant P(X = x S(x) = s,m = m P ) = 1/ν(x) P(X = x S(x) = s,m = m G ) = 1/ A(x) avec et ν(x) = ( A(x) = {ξ X : S(ξ) = S(x)} n i=1 x i!) 1 / ξ A(x) n i=1 ( ξ i!) 1 Le vecteur des statistiques exhaustives des s à comparer n est pas toujours exhaustif pour le sur (en fait rarement). ABC et CM J. K. Pritchard, M. T. Seielstad, A. Perez-Lezaun, M. W. Feldman, Population growth of human Y chromosomes : a study of Y chromosome microsatellites, Mol. Biol. Evol. 16 (1999) M. Beaumont, W. Zhang, D. Balding, Approximate Bayesian Computation in population genetics, Genetics 162 (2002) N. Cressie, Statistics for Spatial Data, revised edition, Wiley Series in Probability and Statistics, New York, 1993. Choix de bayesien B.P. Carlin, S. Chib, Bayesian model choice via chain Monte Carlo methods, J. Royal Statist. Society Series B. 57 (1995) A. Grelaud, C.P. Robert, J.-M. Marin, F. Rodolphe, J.-F. Taly, ABC methods for model choice in Gibbs random fields, Bayesian Analysis (2009) 4(2) C.P. Robert, J.-M. Marin, N. S. Pillai, Why approximate Bayesian computational (ABC) methods cannot handle model choice problems. arxiv preprint arxiv : , (2011). J. M. Marin, N. S. Pillai, C. P. Robert, J. Rousseau, Relevant statistics for Bayesian model choice. Journal of the Royal Statistical Society : Series B (Statistical Methodology), (2013). A. Estoup, J. M. Cornuet, C. P. Robert, P. Pudlo, J. M. Marin, ABC model choice via random forests. basepub.dauphine.fr, (2014).
Related Search
Similar documents
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks