Data : Traiter les données de la COVID pour Santé publique France

Réalisations

24 août 2023

Image illustrant une manipulation laborantine

Le témoignage de Charline, Responsable d’applications

Nous épaulons Santé publique France sur la data de la COVID-19 depuis juin 2021. Notre mission : traiter et croiser les données pour permettre aux scientifiques de les exploiter.

Charline, comment ton équipe accompagne-t-elle Santé publique France dans sa lutte contre la COVID ?

Nous épaulons Santé publique France sur la data de la COVID-19 depuis mars 2020, le travail sur les protocoles a démarré en juin 2021. Notre mission, c’est de traiter et croiser les données pour permettre aux scientifiques de les exploiter.
Le processus est le suivant :

  • Santé publique France exprime un besoin scientifique. Par exemple, une étude de cohorte, qui compare l’évolution de la mortalité ou de la morbidité d’une population, selon l’âge, la profession, les conditions de vie… Ou une étude cas-témoins, qui compare des sujets infectés avec des sujets non infectés ayant les mêmes caractéristiques.
  • Sully élabore le protocole de croisement des données adapté à l’étude et réalise le traitement des données.
  • Santé publique France peut alors créer l’étude sur la base de ces statistiques.
Quel était l’objet de ses études ?

7 protocoles ont été mis en place, et chacun joue un rôle particulier :

  • Estimer l’efficacité des différents vaccins contre les infections.
  • Estimer l’efficacité des différents vaccins contre les hospitalisations.
  • Comparer l’efficacité des vaccins bivalents et monovalents.
  • Suivre l’évolution des hospitalisations.
  • Estimer l’efficacité des rappels de vaccination. 
  • Suivre la réinfection pour comprendre pourquoi on peut avoir plusieurs fois la COVID. 
  • Comparer la gravité des variants Omicron et Delta.
D’où viennent les données ?

Les données viennent de 3 applications COVID gérées par Sully :

  • Contact-Covid pour les données de « contact tracing » recueillies dans l’application TousAntiCovid
  • SI-DEP pour les données des tests SARS-CoV-2 réalisés (PCR, Ag, sérologique) 
  • VAC-SI pour les données de vaccination de la population française contre le SARS-CoV-2

Et 1 autre que nous ne gérons pas, mais dont nous récupérons les données :

  • SI-VIC pour les données d’hospitalisations et de décès à l’hôpital
Ça représente beaucoup de données ?

Nous avons commencé à travailler sur 300 tests pour en traiter finalement plus de 3 000 000 ! Les études peuvent concerner des millions de personnes ou des populations plus restreintes. Par exemple, l’étude des vaccins bivalents et monovalents portait sur une catégorie d’âge précise alors que d’autres protocoles portaient sur l’ensemble de la population des plus de 15 ans.

Ces données sont anonymes ?

Les données sont totalement anonymisées. Un pseudonyme unique a été attribué automatiquement et informatiquement à chaque utilisateur pour toutes les applications COVID-19. Ce pseudonyme commun permet d’établir un lien entre les bases de chaque application.

Quels sont les défis de cette mission ?
  • Obtenir des données sur la plus grande population représentative pour chaque protocole, de manière à minimiser les risques d’interprétation.
  • Garantir la précision et la cohérence des données. SPF revient parfois vers nous pour apporter des correctifs, avoir davantage de détails… 
  • Tenir les délais pour la publication des articles scientifiques sur les sites officiels.
Et nos réussites ?

Notre connaissance des BDD nous permet de conseiller Santé publique France sur les informations que l’on peut en tirer par rapport à un besoin spécifique.
Nous échangeons avec les scientifiques de manière à définir le traitement pour les faire ressortir et les reconstituer si elles sont partielles.
Il faut aussi réaliser un travail sur les données brutes avant de pouvoir croiser les informations. Dans les bases, il y a une ligne par test pour SI-DEP et une ligne par injection pour VAC-SI. Donc une personne qui va réaliser 20 tests et 3 injections sera présente sur 23 lignes. Nous appliquons un traitement afin que les données de cette personne apparaissent sur une seule ligne. 

Quelle équipe mobilise-t-on ?

L’équipe Sully était composée de :

  • Baptiste, Chef de projets ;
  • Adel, Lead dev ;
  • et moi-même, Ingénieure informatique spécialisée dans le médical.

Nous avons travaillé en proximité avec les équipes de Santé publique France :

  • les biostatisticiens ;
  • les chargés d’études scientifiques spécialisés dans la data ou la recherche médicale.
Satisfaite de cette mission ?

Très ! Notre équipe a été impliquée du début à la fin, avec proactivité : nous échangions beaucoup avec Santé publique France afin d’améliorer ensemble la qualité de la data.
C’était motivant de manipuler ces données importantes qui allaient nourrir des articles scientifiques liés à la COVID-19. Nous avons été fiers de participer à ce projet, car il y avait un réel enjeu.

Partager