[ad_1]
L’analyse de l’expression génique d’une personne nécessite de cartographier son paysage d’ARN à une référence standard pour mieux comprendre dans quelle mesure les gènes sont « activés » et remplissent des fonctions dans le corps. Mais les chercheurs peuvent rencontrer des problèmes lorsque la référence ne fournit pas suffisamment d’informations pour permettre une cartographie précise, un problème connu sous le nom de biais de référence.
Dans un nouvel article publié dans la revue Méthodes naturelles, des chercheurs de l’UC Santa Cruz présentent la toute première méthode d’analyse des données de séquençage de l’ARN à l’échelle du génome à l’aide d’un « pantranscriptome », qui combine un transcriptome et un pangénome – une référence qui contient du matériel génétique d’une cohorte d’individus divers, plutôt que juste un seul brin linéaire. Un groupe de scientifiques dirigé par le professeur agrégé de génie biomoléculaire de l’UCSC, Benedict Paten, a publié une boîte à outils qui permet aux chercheurs de cartographier les données d’ARN d’un individu sur une référence beaucoup plus riche, en traitant les biais de référence et en conduisant à une cartographie beaucoup plus précise.
« Il s’agit de pangénome plus transcriptome – cette combinaison n’a jamais vraiment été réalisée auparavant », a déclaré Jordan Eizenga, co-premier auteur de l’article et chercheur postdoctoral au laboratoire de génomique computationnelle de l’UCSC. « C’est la première fois que quelqu’un tente d’incorporer le pangénome en tant que caractéristique standard de la cartographie du séquençage de l’ARN. »
Cet outil aidera les chercheurs du monde entier qui s’efforcent de comprendre l’expression des gènes grâce à l’analyse du séquençage de l’ARN. Les outils sont accessibles au public et accessibles via Github.
« Avec cette boîte à outils, nous utilisons ces données plus diversifiées que nous pouvons désormais obtenir du pangénome pour améliorer la mesure des données d’expression génique, ce qui peut varier considérablement d’un individu à l’autre », a déclaré Paten. « L’objectif est de faire sentir l’impact de ces données plus diverses sur les études qui examinent l’expression des gènes, ce qui se traduira par une meilleure analyse des modèles cellulaires, des modèles organoïdes et d’autres applications de recherche. »
La fonction la plus communément reconnue de l’ARN est de traduire l’ADN en protéines, mais les scientifiques comprennent maintenant que la grande majorité de l’ARN est non codante et ne fabrique pas de protéines, mais peut plutôt jouer des rôles tels que l’influence de la structure cellulaire ou la régulation des gènes. L’ensemble du paysage de l’ARN est connu collectivement sous le nom de transcriptome, et sa cartographie permet aux chercheurs de mieux comprendre l’expression génique d’un individu.
Le pantranscriptome s’appuie sur le concept émergent de « pangénomique » dans le domaine de la génomique. Généralement, lors de l’évaluation des données génomiques d’un individu pour la variation, les scientifiques comparent le génome de l’individu à celui d’une référence composée d’un seul brin linéaire de bases d’ADN. L’utilisation d’un pangénome permet aux chercheurs de comparer simultanément le génome d’un individu à celui d’une cohorte génétiquement diversifiée de séquences de référence, provenant d’individus représentant une diversité d’ascendance biogéographique. Cela donne aux scientifiques plus de points de comparaison pour mieux comprendre la variation génomique d’un individu.
La cartographie des données de séquençage d’ARN pour comprendre l’expression des gènes peut être difficile car les séquences d’ARN sont épissées par des mécanismes cellulaires, ce qui signifie qu’un ensemble de données d’ARN peut provenir de zones non connectées du génome, ce qui rend difficile leur alignement correct sur une référence. Ces sites d’épissage ne sont pas uniformes dans la population humaine, mais varient d’un individu à l’autre. Il est également difficile de savoir de quel haplotype provient l’ARN – si le groupe de gènes provient spécifiquement de l’ensemble de chromosomes hérité de la mère de l’individu ou de l’ensemble hérité du père.
Mais avec le nouveau pipeline d’outils open source, les chercheurs peuvent prendre les segments épissés de l’ARN d’un individu, cartographier où ils s’alignent sur un pangénome, identifier à quel haplotype appartiennent les données et analyser l’expression des gènes.
Tout d’abord, le pipeline identifie les zones du génome d’où proviennent les données de séquençage de l’ARN, y compris les sites d’épissage, et marque ces points sur la référence du pangénome. Ces points marqués sont ensuite comparés à un pantranscriptome composé de transcrits spécifiques à l’haplotype générés à partir des données de référence contenues dans le pangénome. Cette étape nécessite des méthodes algorithmiques spécialisées et difficiles.
Enfin, il génère des estimations des niveaux d’expression génique sur la base de cette comparaison entre les données cartographiées et les transcrits dans le pantranscriptome, et identifie de quels haplotypes proviennent les gènes.
« C’est définitivement une étude très tournée vers l’avenir dans la mesure où d’autres méthodes d’expression à l’échelle du génome n’utilisent pas encore vraiment les informations sur les pangénomes et les haplotypes », a déclaré Jonas Sibbesen, co-premier auteur de l’étude et ancien chercheur postdoctoral au laboratoire de génomique computationnelle de l’UCSC. qui est maintenant professeur adjoint à l’Université de Copenhague. « Nous réfléchissons maintenant à ce que la pangénomique pourrait apporter de plus dans les analyses transcriptomiques. »
À l’avenir, les chercheurs souhaitent développer davantage ces outils pour qu’ils soient utiles pour l’analyse informatique en aval et adapter les outils aux particularités de la recherche sur les données unicellulaires. Pour l’instant, le groupe espère que sa nouvelle boîte à outils servira à montrer à quel point l’analyse dérivée de la pangénomique peut être utile.
« Nous devons être en mesure d’expliquer à certains chercheurs comment une référence de pangénome leur sera bénéfique », a déclaré Paten. « Ce pipeline est vraiment une première tentative pour faire cela pour l’ARN, pour les données fonctionnelles, pour les données d’expression. »
[ad_2]