Une publication dans Genome Biology

Réduire les biais dûs à la contamination des génomes dans les recherches scientifiques



imgActu
Image ©Shutterstock - Kateryna Kon

Luc Cornet et Denis Baurain, chercheurs dans le domaine de la phylogénomique à l’Université de Liège, proposent une nouvelle démarche en vue de comparer les outils permettant des simulations de contaminations génomiques afin d’aider les chercheurs dans la sélection des algorithmes plus appropriés à leurs études. Une démarche qui vise à limiter les biais induits par ces contaminants dans la fiabilité des études scientifiques. Cette recherche fait l’objet d’une publication dans la revue scientifique en accès libre (Open Access) Genome Biology.

D

e nos jours, les génomes - le matériel génétique d’un organisme numérisé dans un fichier informatique - sont devenus le constituant de base de nombreuses études scientifiques. Ils sont, par exemple, utilisés afin d’étudier l’histoire évolutive des espèces ou encore dans le domaine médical pour mieux combattre les pathogènes de l’homme. Il existe plusieurs centaines de milliers de génomes à disposition des chercheurs et leur nombre est en constante augmentation. Si ce déluge de données a ouvert de nouvelles perspectives de recherche en génomique comparative et dans des domaines connexes, il s'est accompagné d'un problème croissant de contamination d'un certain nombre de génomes publiés dans des bases de données publiques. « On appelle « contamination du génome » l’inclusion de séquences étrangères à côté des séquences authentiques, explique le Pr Denis Baurain, biologiste et chercheur au sein de l’Unité de recherches InBioS (Faculté des Sciences) de l’ULiège. Les séquences contaminantes peuvent s’insinuer dans un génome à de nombreuses occasions, depuis le prélèvement de l’organisme dans son environnement d’origine jusqu’à l’analyse informatique de son génome. Un exemple très actuel est l’étude du microbiome, tel que celui de la flore intestinale humaine, où la multiplicité des organismes échantillonnés en même temps augmente considérablement les probabilités de contamination. De la qualité de ces génomes dépend bien souvent la fiabilité des études scientifiques qui en découlent. » C’est pourquoi la présence de segments de séquence n'appartenant pas à l'organisme prévu est depuis quelques années sous la loupe des chercheurs. La contamination est en effet un phénomène connu comme étant à la source d'erreurs dans de nombreuses publications, y compris dans des revues scientifiques prestigieuses.

La diminution du coût du séquençage et l'augmentation concomitante du nombre de génomes accessibles au public ont créé un besoin aigu de logiciels automatisés pour évaluer cette contamination génomique. Au cours des six dernières années, dix huit logiciels ont été publiés, chacun ayant ses propres forces et faiblesses. « Décider des outils à utiliser devient de plus en plus difficile sans une compréhension des algorithmes sous-jacents, explique Luc Cornet, collaborateur scientifique à l’ULiège et Principal Investigator du projet BELSPO BCCM (Belgian Coordinated Collections of Microorganisms), premier auteur de l’article qui vient d’être publié dans la revue Genome Biology. C’est pourquoi nous avons décidé de passer en revue ces programmes, en évaluant six d'entre eux, en vue de présenter leurs  principes de fonctionnement. Cette démarche scientifique a pour but de guider les chercheurs dans le choix d'outils appropriés pour des applications spécifiques. »

Luc Cornet et Denis Baurain - co-auteurs de multiples publications sur le sujet traitant notamment de la création d’algorithmes de détection des contaminants au sein des génomes - dressent, dans cette nouvelle publication, une comparaison rigoureuse de tous les algorithmes disponibles. Ils définissent aussi pour la première fois de nombreux concepts clefs dans le domaine des contaminations génomiques. « L’importance des contaminations est telle que toute une série d’algorithmes sont disponibles afin d’évaluer la qualité des génomes, reprend Luc Cornet. Leur rythme de publication est aussi très important, avec onze nouveaux outils publiés rien que sur les trois dernières années. » Malgré ces efforts , l’outil ultime de détection n’existe pas encore, chacun présentant des qualités et des faiblesses.

En formant leurs collègues à la détection des contaminations dans le contexte du projet de recherche BCCM (https://bccm.belspo.be/ ) GEN-ERA financé par BELSPO (https://bccm.belspo.be/content/bccm-collections-genomic-era), Luc Cornet et Denis Baurain se sont rendus compte qu’il était compliqué de faire comprendre les différences parfois subtiles existant entre les différents algorithmes. Ils ont donc décidé de comparer ces outils sur des simulations de contaminations génomiques afin d’aider les chercheurs dans la sélection des plus appropriés à leurs études. Les deux chercheurs concluent sur le fait qu’il est important de ne pas se fier à l’utilisation d’un seul outil, comme c’est fréquemment le cas actuellement dans les études scientifiques, mais que la combinaison de multiples approches aux principes complémentaires est nécessaire dans la traque des contaminants.

Référence scientifique

Luc Cornet & Denis Baurain, Contamination detection in genomic data: more is not enough,  Genome Biology, 2022

Contacts

Luc Cornet

Denis Baurain

Partagez cette news