Les stages proposés se dérouleront au sein de l'INSERM U936 (Modélisation conceptuelle de connaissances biomédicales) de l'Université de Rennes 1. Ils seront encadrés par Anita Burgun (anita.burgun@univ-rennes1.fr) et Olivier Dameron (olivier.dameron@univ-rennes1.fr).
Contexte : La comparaison de voies métaboliques homologues entre espèces permet d'étudier les mécanismes associés à certaines pathologies. Elle permet également de déterminer si une espèce est un bon modèle pour une autre pour une question particulière. Dans le cadre d'une collaboration avec l'U598 de l'INRA, nous nous intéressons au métabolisme des lipides chez l'humain et chez le poulet. Le nombre et la complexité des données à traiter pour réaliser de telles comparaison imposent de faire appel à des techniques automatiques.
Nous souhaitons créer une méthode générique pouvant être appliquée indépendamment à différentes sources d'information, à différentes espèces et à différents métabolismes. Un travail existant porte à la fois sur la comparaison automatique des réactions chimiques impliquées dans des voies métaboliques homologues (fournies par exemple par Reactome), et sur la comparaison des annotations dans Gene Ontology des produits de gènes impliqués dans ces réactions (les GeneOntology Annotations) en utilisant la mesure de similarité sémantique de Wang.
La technique actuelle de comparaison des annotations des produits de gènes ne tient compte ni du niveau de preuve associé à chaque annotation, ni d'éventuels modifieurs comme la négation.
Travail proposé : Le travail proposé consiste à enrichir la technique actuelle de comparaison afin d'exploiter ces deux types d'information. Ceci est un travail pertinent car la mesure de similarité sémantique de Wang néglige aussi bien les niveaux de preuve que les modifieurs, alors que les travaux de Rhee ont établit la nécessité d'en tenir compte.
Approche proposée :
Encadrement et candidature : Le stage se déroulera au sein de l'unité INSERM U936. Il sera encadré par Olivier Dameron. Merci d'envoyer un CV et une courte lettre de motivation à l'adresse ci-dessus.
Contexte : La comparaison de voies métaboliques homologues entre espèces permet d'étudier les mécanismes associés à certaines pathologies. Elle permet également de déterminer si une espèce est un bon modèle pour une autre pour une question particulière. Dans le cadre d'une collaboration avec l'U598 de l'INRA, nous nous intéressons au métabolisme des lipides chez l'humain et chez le poulet. Le nombre et la complexité des données à traiter pour réaliser de telles comparaison imposent de faire appel à des techniques automatiques.
Nous souhaitons créer une méthode générique pouvant être appliquée indépendamment à différentes sources d'information, à différentes espèces et à différents métabolismes. Un travail existant porte sur la comparaison automatique des réactions chimiques impliquées dans des voies métaboliques homologues (fournies par exemple par Reactome).
Problème : En complément à la comparaison des graphes de réactions chimiques, nous souhaitons étudier les annotations des produits de gènes (GeneOntology Annotations) impliqués dans les réactions chimiques de ces voies métaboliques aussi bien dans le cas où les réactions sont identiques que lorsqu'elles sont différentes. Pour cela, on cherche à quantifier la similitude des réactions homologues et éventuellement qualifier leurs différences à l'aide des annotations.
Ceci est un travail pertinent car d'une part, il existe différents niveaux de confiance pour les informations fournies sur les produits de gènes, et d'autre part, les annotations peuvent être pour un même gène à des degré de granularités différentes entre deux espèces. Dans le premier cas, les données peuvent être obtenues expérimentalement ou bien encore par inférence électronique par homologie de séquences. Ainsi, les annotations associées à ces produits de gènes sont obtenues de façon différentes telle que l'inférence électronique ou encore l'annotation manuelle. D'autre part. Dans le second cas, on retrouve par exemple pour APO-A1 vingt trois annotations par des termes GO chez l'humain, et vingt six chez la souris. Parmi elles, seules cinq sont identiques entre les deux espèces. Par contre, on trouve « cholesterol binding » spécifique à l'humain et « lipid binding » spécifique à la souris. Cet exemple illustre l'intéret de comparer non seulement les réactions chimiques, mais aussi les annotations associées. Il illustre également la nécessité d'avoir recours à des connaissances du domaine pour être capable de faire la différence entre des annotations similaires mais de granularités différentes, et des annotations dissimilaires.
Travail proposé :
Ce travail s'inscrit dans le cadre d'une collaboration entre l'EA 3888 et l'U 598 Agrocampus de l'INRA (Christian Diot et de Sandrine Lagarrigue).
Mots-clefs : semantic web, ontology, pathway
Encadrement : Olivier Dameron (olivier.dameron@univ-rennes1.fr)
Contexte : L'efficacité de l'exploitation des données biomédicales repose sur des fonctions permettant d'en automatiser le traitement. Afin d'apporter une aide significative, ces fonctions doivent comporter une part d'intelligence. Pour cela, une des approches actuellement adoptée est de leur permettre d'intégrer des connaissances relatives au domaine d'étude. En particulier, les connaissances de nature symboliques sont représentées sous forme d'ontologies.
De telles ontologies sont actuellement créées pour différentes espèces animales (Homme, souris, zebra fish, poulet...). Elles couvrent des domaines tels que l'anatomie, ou encore l'annotation de gènes (par exemple, le projet Open Biological Ontologies comporte des ontologies (au sens large) spécifiques aux Humains ou aux souris).
Problème : Le problème général est celui de l'utilisation de modèles animaux. Lors des informations ne sont pas disponibles pour une espèce particulière, on souhaite en effet pouvoir réutiliser des travaux menés sur d'autres espèces. Cependant, il n'existe pas de représentation explicite et formelle des correspondances existant entre les ontologies spécifiques à chaque espèce (par exemple, les souris ont cinq prostates, qui correspondent aux cinq lobes de la prostate humaine). Il n'est donc pas possible de déterminer dans quelles circonstances il est possible de transposer les informations d'une espèce à une autre espèce.
Travail proposé : Afin d'étudier le métabolisme des lipides chez le poulet, ce travail comportera les étapes suivantes :
Ce travail s'inscrit dans le cadre d'une collaboration entre l'EA 3888 et l'U 598 Agrocampus de l'INRA (Christian Diot et de Madeleine Douaire).
Mots-clefs : semantic web, ontology, ontology-alignment
Encadrement : Olivier Dameron (olivier.dameron@univ-rennes1.fr)
Contexte : L'efficacité de l'exploitation des données biomédicales repose sur des fonctions permettant d'en automatiser le traitement. Afin d'apporter une aide significative, ces fonctions doivent comporter une part d'intelligence. Pour cela, une des approches actuellement adoptée est de leur permettre d'intégrer des connaissances relatives au domaine d'étude. En particulier, les connaissances de nature symboliques sont représentées sous forme d'ontologies.
Dans le domaine biomédical, il existe plusieurs ontologies dont les domaines se recouvrent partiellement. Par exemple, Gene Ontology décrit des connaissances sur les gènes et les produits associés (composants cellulaires, fonction moléculaires et processus biologiques), et ChEBI (Chemical Entities of Biological Interest) représente des connaissances sur des composés chimiques. Ces recouvrements sont utiles dans la mesure où ils permettent de combiner les connaissances de plusieurs domaines pour exprimer des idées complexes (par exemple qu'une des fonctions moléculaires de Gene Ontology fait intervenir un composé de ChEBI).
Problème : Pour pouvoir être exploitées par des programmes, les correspondances entre les parties d'ontologies qui se recouvrent doivent être rendues explicites (et représentées de façon formelle) : on parle alors de mapping d'ontologies, ou d'alignement.
Afin de réaliser cette tâche, plusieurs approches ont été envisagées :
Travail proposé : Nous proposons d'étudier la faisabilité et l'efficacité d'une approche sémantique, qui exploiterait la signification des connaissances représentées dans des ontologies pour leur mise en correspondance. On pourra s'intéresser au cas du métabolisme du fer ou du calcium.
Le stage comportera les étapes suivantes :
Mots-clefs : ontology mapping, ontology alignment, semantic web
Encadrement : Anita Burgun (anita.burgun@univ-rennes1.fr) et Olivier Dameron (olivier.dameron@univ-rennes1.fr)
Contexte : L'efficacité de l'exploitation des données biomédicales repose sur des fonctions permettant d'en automatiser le traitement. Afin d'apporter une aide significative, ces fonctions doivent comporter une part d'intelligence. Pour cela, une des approches actuellement adoptée est de leur permettre d'intégrer des connaissances relatives au domaine d'étude. En particulier, les connaissances de nature symboliques sont représentées sous forme d'ontologies.
Pour jouer un rôle significatif, ces ontologies doivent avoir une couverture importante, c'est-à-dire représenter à la fois un nombre suffisant de concepts et un nombre suffisant de relations entre ces concepts. Cependant, cela rend la mise à jour et l'utilisation de telles ontologies difficile. Pour des raisons de faisabilité et de réutilisabilité, l'approche modulaire consistant à réaliser plusieurs ontologies et à les combiner ensuite est préférée à une approche monolithique de type CYC. En dépit de problèmes (cf. description du stage précédent), une telle décomposition rend plus abordable la complexité de chacune des briques.
Problème : En dépit de cette approche modulaire, la richesse de la plupart des ontologies de domaine (par exemple Foundational Model of Anatomy pour l'anatomie, ou le NCI thesaurus pour l'oncologie) demeure importante. Cela constitue un frein :
Fragmenter chacune de ces ontologie de domaine n'est pas envisageable car les multiples relations entre les concepts empêche d'isoler des sous-ensembles indépendants.
Travail proposé : Nous proposons de générer dynamiquement des descriptions générales pour des concepts abstraits (par exemple "Doigt") à partir des propriétés de leurs parents et de leurs descendants (par exemple ici "Index gauche", "Index droit",...). L'enjeux est alors d'utiliser de telles descriptions pour :
Nous proposons de prendre le Foundational Model of Anatomy comme domaine d'étude, mais cela peut être adapté aux souhaits et compétences du candidat. Le stage comportera les phases suivantes :
Mots-clefs : intermediate representation, ontology consistency
Encadrement : Anita Burgun (anita.burgun@univ-rennes1.fr) et Olivier Dameron (olivier.dameron@univ-rennes1.fr)
Contexte : L'efficacité de l'exploitation des données biomédicales repose sur des fonctions permettant d'en automatiser le traitement. Afin d'apporter une aide significative, ces fonctions doivent comporter une part d'intelligence. Pour cela, une des approches actuellement adoptée est de leur permettre d'intégrer des connaissances relatives au domaine d'étude. En particulier, les connaissances de nature symboliques sont représentées sous forme d'ontologies.
Pour jouer un rôle significatif, ces ontologies doivent avoir une couverture importante, c'est-à-dire représenter à la fois un nombre suffisant de concepts et un nombre suffisant de relations entre ces concepts. Cela nécessite donc de disposer de méthodes permettant d'intégrer des informations de différentes sources. La taille de ces sources, leur nombre et leur évolution régulière imposent d'utiliser des méthodes automatiques.
L'ontologie BioMed a pour objectif de représenter les relations entre les maladies et les voies métaboliques. Elle résulte de l'intégration d'ontologies des maladies (UMLS, Gene Ontology, hiérarchie Kegg Brite), d'ontologies de voies métaboliques (hiérarchie Kegg Brite) et de bases de données (notamment GOA).
Problème : Les méthodes d'intégration utilisées pour la conception de BioMed produisent un nombre important de relations à partir d'informations de différentes sources. Le degré de certitude de ces relations est variable.
Travail proposé : Nous proposons de développer des méthodes statistiques d'évaluation des relations maladies - voies métaboliques candidates. Le stage comportera les phases suivantes :
Mots-clefs : bioinformatics, ontology integration, disease, pathway, statistics, BioMed, Kegg, Gene Ontology, SNOMED
Encadrement : Olivier Dameron (olivier.dameron@univ-rennes1.fr)