Lutte contre le cancer : quand le Big Data et la science s’unissent

Lorsque l’on administre un traitement contre le cancer à un patient, le système immunitaire peut soit lutter contre l’agent responsable de l’infection, soit favoriser le développement d’une cellule cancéreuse. Il est bien souvent difficile de comprendre et d’anticiper les réactions entre les cellules immunitaires et la guérison ou non d’un cancer.

Des chercheurs de l’Institut National de la Santé et de la Recherche Médicale (INSERM) et de l’Institut Curie ont développé une cartographie interactive pour prédire les différentes réponses possibles aux traitements contre le cancer. Cette cartographie permet de choisir le traitement de plus adapté au patient et à sa maladie et tend à être enrichie de nouvelles découvertes par la communauté scientifique du monde entier.

C‘est la technologie Big Data qui a aujourd’hui permis de mettre au point cet outil révolutionnaire. Cette cartographie contient environ 1460 « nœuds » reliés par plusieurs chemins, qui prennent en compte les différents processus moléculaires impliqués dans chaque grande famille de phénomènes biologiques (croissance tumorale, reconnaissance tumorale, recrutement des cellules immunitaires, etc.).

Cet « arbre de décision » se base sur des données scientifiques déjà existantes et permettra d’aider considérablement les oncologues à choisir la meilleure stratégie thérapeutique pour combattre un cancer. Les médecins peuvent en effet renseigner les données biologiques d’un patient et découvrir ensuite automatiquement comment le système immunitaire va réagir aux différents traitements proposés. Un véritable outil informatique Big Data à enrichir permettant un progrès scientifique non négligeable.

Fonctionnement de la ressource

Cette méta-carte est open source et peut être consultée en ligne par toute la communauté scientifique du monde. Elle est présentée sous trois plateformes indépendantes, NaviCall, Minerva et NDEx. Tous les composants  de la carte sont cliquables, ce qui la rend interactive. Les annotations sur les composants de la carte contiennent un système de tags converti en scores de confiance. Cela permet donc de retracer l’implication des molécules dans différentes sous-structures en tant que processus biologiques. La fonction de zoom sémantique de NaviCell simplifie la navigation en montrant une quantité importante de détails à chaque niveau de zoom.

Comparaison de la méta-carte avec les bases de données existantes

Le contenu de la cartographie a été comparé à un sous-ensemble de voies liées au système immunitaire à partir des données d’interaction moléculaire existantes. Les bases de données comparées (InnateDB, KEGG et REACTOME) contiennent des descriptions détaillées de ces différentes réactions immunitaires. Ces bases de données ont été comparées pour récupérer des informations sur les différentes voies canoniques, puis représentées visuellement dans l’environnement NaviCell, ce qui permet une intégration et une visualisation rapide des données issues de la comparaisons de bases.

Méthodes de représentation

Les cartes sont designées dans l’éditeur de diagramme CellDesigner en utilisant la méthode de description des processus de la syntaxe SBGN (Systems Biology Graphical Notation) qui est basée sur le langage SBML (Systems Biology Markup Langage). Le modèle de données utilisé comprend les objets moléculaires suivants : protéines, gènes, ARN, molécules simples, ions, médicaments, phénotypes. Ces objets peuvent jouer le rôle de réactifs, de produits et de régulateurs dans un réseau de réactions connectées. Les phénotypes d’objets jouent un rôle dans le résultat ou la lecture du processus biologique (migration, destruction des tumeurs, production d’anticorps, etc.)

Pour fournir des informations fiables sur les interactions moléculaires décrites, deux scores de confiance ont été introduits. Les deux scores représentent des nombres entiers variants de 0 (confiance indéterminée) à 5 (confiance élevée). Le REF (score de référence) indique à la fois le nombre et le « poids » associé à chaque réaction.

Génération de la carte avec NaviCellFactory

La carte CellDesigner annoté au format NaviCell est convertie dans une interface web NaviCell, qui est un ensemble de pages html avec du code JavaScript intégré pouvant être lancé dans un navigateur Web pour une utilisation en ligne. Ces cartes spécifiques ont été mises à disposition sur d’autres plateformes telles que Minerva ou NDEx.

Ces ensembles de données ont été transformés en niveaux d’expression logarithmique et centrées sur la moyenne. L’implémentation Matlab ICA de l’algorithme FastICA46 permet d’améliorer la stabilité des données. Des images colorées ont été obtenues en utilisant la fonction Stain CellDesigner map grâce à des fichiers de cartes .xml.

La documentation et les scripts de calculs d’activité de module sont fournis sur GitHub et la procédure étape par étape de la construction de la cartographie est disponible ici.

La carte est consultable en ligne à cette adresse.