Identifier les bases biologiques sous-jacentes aux variations d’efficience alimentaire

Analyse de données biologiques hétérogènes par exploitation de graphes multicouches pour comprendre et prédire les variations d’efficience alimentaire chez le porc.

L’efficience alimentaire correspond à la valorisation des ressources alimentaire par l’animal qui les transforme notamment en gain de poids. C’est un phénotype clé car il aboutit à une épargne des ressources et à une réduction des rejets et effluents dans l’environnement, mais également complexe au sens où un grand nombre de voies biologiques le détermine. Aussi, il est important d’identifier les éléments susceptibles de jouer un rôle pivot dans le contrôle du phénotype, et les interdépendances entre les entités participant aux différentes voies biologiques sous-jacentes. Les technologies d’analyse du vivant aboutissent à la production de grandes quantités de données portant sur des entités biologiques hétérogènes (génome, quantité de transcrits, abondance ou activité des protéines, métabolites). Il s’agit de développer des méthodes et études pour déduire la structure de dépendance des données pour identifier les régulateurs clés et les sous-réseaux importants dans la définition du caractère biologique d’intérêt.

L’hypothèse de travail est que l’on peut mieux définir les relations entre les molécules régulatrices d’un phénotype animal, lorsqu’on associe les données expérimentales avec des données de connaissances balayant différents niveaux d’organisation biologique, permettant ainsi de combler les trous dus aux méthodologies expérimentales et de distinguer la co-régulation de la co-expression entre entités biologiques.

  • Il s’agit dans un premier temps d’analyser les structures de corrélations au sein de sources de données expérimentales en relation avec la variation de l’efficience alimentaire chez le porc en croissance. Cette étape consiste à identifier des sous-réseaux de corrélations entre molécules au sein de chaque jeu de données, en utilisant des méthodes de calculs de corrélations pondérées, et de déterminer leurs relations avec les mesures de caractères relatifs à l’efficience alimentaire (indice de consommation, ingéré résiduel, gain de poids, adiposité corporelle, etc).
  • Dans un second temps, il s’agit d’associer ces sous-réseaux de co-variations avec des larges réseaux représentant la connaissance publique de référence sur différents niveaux d’organisation du vivant (métabolismes, interaction protéines/protéines, interaction génétiques…). L’objectif de cette étape est de distinguer la co-expression et la co-régulation entre entités. Il faut d’abord créer et évaluer les méthodes de parcours de graphes et identifier les stratégies adéquates de couplage entre graphes de données expérimentales et graphes de connaissances.

Ces méthodes sont ensuite appliquées sur des couches rassemblant des entités biologiques à chaque niveau d’organisation du vivant. L’enjeu de cette étape est que les données expérimentales sont très incomplètes (par exemple le nombre de métabolites identifiés par métabolomique ou des phénotypes mesurés par des méthodes cibles sont bien moindres que le nombre de transcrits), mais « les trous » pourront être comblés par la connaissance extraite des bases. L'impact de chaque niveau (gènes, protéines, métabolites) sur la connaissance du phénotype est alors étudié.

Camille Juigné travaille sur ce sujet de thèse depuis le 1er décembre 2020 pour une durée de 3 ans, dans le cadre d’une thèse financée par la région Bretagne et Inrae (méta-programme DigitBio). Elle est encadrée par Florence Gondret dans l’équipe Croissance de l’UMR Pegase et par Emmanuelle Becker dans l’équipe Dyliss de l’Irisa.

Contact

Camille Juigné : camille.juigne[at]inrae.fr
Florence Gondret : florence.gondret[at]inrae.fr
Emmanuelle Becker : emmanuelle.becker[at]univ-rennes1.fr