Vingt pétaoctets de données ADN traités en 30h, l'exploit de l'Institut Pasteur

L'un des projets de recherche de l'Institut Pasteur, baptisé "IndexThePlanet", consiste à analyser et à cartographier l’ADN de l’ensemble du monde vivant, à partir d’une base de données publique. La base de données d'étude pesant quelques 20 pétaoctets, il a fallu trouver une infrastructure dédiée.

Par Sophie HOGUIN, publié le 31 janvier 2025

Vingt pétaoctets de données ADN traités en 30h, l’exploit de l’Institut Pasteur

Quand on atteint des chiffres aussi important que 20 pétaoctets difficile de se faire une idée de ce que cela représente. L’Institut Pasteur précise ainsi qu’à titre de comparaison, cela correspond à peu près à l’intégralité des données hébergées par YouTube pendant la première décennie du service.

Donner de la cohérence

« Pour bien comprendre l’enjeu de nos travaux, il faut considérer que cette base est une sorte d’immense bibliothèque, mais dans laquelle toutes les pages de tous les livres auraient été dispersées. L’enjeu, c’est de redonner de la cohérence à ces données en classant méthodiquement l’ensemble des fragments d’ADN pour les reconstituer à la fois à l’échelle d’un être vivant, mais également en prenant en compte son environnement », resitue Rayan Chikhi, chercheur en bio-informatique au sein de l’Institut Pasteur.

Un calcul en un temps record

C’est pour cette raison que l’Institut s’est donc tourné vers un fournisseur cloud de référence : AWS. Ce dernier a mis à la disposition des chercheurs un cluster atteignant 2,18 millions de vCPUs pour les instances Graviton pour mener à bien ce travail de titan. « La préparation des opérations a duré près d’un an, pour parvenir in fine à un batch de calcul de 30 heures seulement, signale le chercheur. A titre de comparaison, nous avons estimé qu’il aurait fallu près de 30 millions d’heures, soit 3400 ans, à un ordinateur de bureau pour réaliser un tel calcul ».

L’ambition du projet

« Le projet IndexThePlanet est en fait le successeur d’un premier travail de recherche mené en commun avec une équipe internationale, le projet Serratus, qui a permis d’identifier de nouvelles espèces de coronavirus et d’autres virus à ARN », note Rayan Chikhi. Un projet qui a permis de cartographier dix fois plus de espèces qu’auparavant, pour un total de l’ordre de 3 pétaoctets de données analysées. Pour  IndexThePlanet, l’ambition est donc forte : « Nous avons décidé d’aller plus loin en élargissant le spectre à l’ensemble des virus présents sur terre, en analysant l’ADN de l’intégralité du monde vivant connu, précise le chercheur.

Les moyens d’AWS

Pour mener à bien leurs recherches, les équipes de l’Institut Pasteur ont eu accès à une base de données mondiale, stockée et mise à disposition par AWS via son programme Registry of Open Data. Celle-ci contient les données non structurées de séquençage de l’ensemble des espèces vivantes recensées sur Terre. Le projet IndexThePlanet repose donc sur deux phases distinctes : tout d’abord « l’analyse globale » de cette base de données afin de la rendre lisible et exploitable, puis la mise à disposition d’un moteur de recherche capable d’évoluer de façon rapide et efficace dans l’index créé.

AWS a programmé les phases de calcul durant le weekend afin d’accéder à des ressources moins sollicitées, « la taille colossale des ressources ayant mobilisé une partie conséquente des ressources disponibles », concède Dorian Schaal d’AWS.

Deux jeux de données

Après cette première phase, deux jeux de données tirés de ce projet existent : l’un, complet, de 2.2 pétaoctets, l’autre plus compact d’environ 400 téraoctets qui servira de base au futur moteur de recherche génomique. Côté calendrier, l’Institut Pasteur estime la mise en service du moteur de recherche à l’horizon 2026. Il doit permettre de connaître avec précision l’entièreté des virus, puis des bactéries, présents dans la base de données mondiale. Rayan Chikhi reste toutefois pragmatique : « Cette base reste encore largement incomplète au regard de la diversité terrestre et, malgré son succès, ce projet de recherche ne permettra de passer que de 0,01 à 0,1% de virus connus ».