Des big datas aux smart datas en santé

Du flu au flop !

Depuis une dizaine d’années le concept de big datas a fait irruption dans le langage. Littéralement « Grande quantité de données ». Le principe appliqué à la santé consiste à recueillir des données de santé en provenance de toute la planète internet et à les filtrer. Ainsi en 2008, Google a tenté de prédire l’évolution de la grippe, grâce à l’application Google Flu. L’idée était séduisante et consistait à repérer sur toutes les recherches faites sur Google, certains mots pouvant évoquer des symptômes de grippe (fièvre, courbatures, maux de tête, etc.), de les géolocaliser grâce à l’adresse IP des ordinateurs et de les horodater. Ainsi pensaient-ils après lissage par des modèles mathématiques juger de l’évolution de la grippe jour après jour dans le monde et même heure après heure.

La comparaison avec les données transmises par l’Institut de Veille sanitaire (InVS) en France a pu démontrer qu’il n’y avait pas de correspondance fiable. Et de fait en 2015, Google jetait l’éponge et fermait sa société Flu trends. La raison de ce flop est compréhensible : ce n’est pas parce qu’on a de la fièvre, ou des courbatures, ou que l’on tape le mot grippe, qu’on a effectivement la grippe. La validité du big data ne peut être envisagée que si les datas sont… big, c’est-à-dire énormes (des millions de données), et que si les mots étudiés ont un sens relativement univoque. Or, on peut très a bien avoir de la fièvre sans que ce soit la grippe, et ce n’est pas parce qu’on recherche ce mot qu’on est effectivement malade, et de surcroît de la grippe. Cet exemple montre que le big data décrit un paysage réel (les données), mais qu’il les observe au travers d’un verre dépoli : des formes incertaines, aux couleurs passées, et aux reliefs aplatis. Ce n’est donc pas avec les moteurs de recherche que l’on peut récupérer des données ayant du sens. À moins… À moins de croiser ces données avec d’autres qui ne soient plus anonymisées, et là c’est un autre problème qui se profile : le franchissement de la barrière de l’anonymat. La question éthique se pose de façon accrue et l’évolution des lois ira de plus en plus vers une protection croissante des données. Prenons l’exemple, du poids, donnée a priori sans le moindre caractère sensible. Mais rapporté à une adresse IP d’un ordinateur, cela devient une donnée de santé protégée. En effet, si l’adresse IP localise ce poids excessif dans un petit village de 100 personnes, il est clair que l’on pourra retrouver la ou les quelques personnes en surpoids de ce village, la donnée n’est donc plus anonyme. Évidemment, la probabilité est mince, mais elle n’est pas nulle. Ce qui explique la frilosité du législateur face aux datas. On se trouve donc face à une double difficulté, cette vision très floue qui rend la donnée ininterprétable, et le risque éthique de la désanonymisation.

Du big au bug !

Ce qu’on vient de décrire dans le monde 1.0 est de même nature dans le monde 2.0. Rappelons que le monde 2.0 est l’échange de données entre des individus au travers d’un site, d’un forum ou d’une web app. Le flou décrit précédemment se lève un peu, car on se base sur de l’écrit qui a du sens, qui est explicite et qui peut être compris et indexé par des machines. Mais là encore on se heurte aux deux mêmes problèmes : ce n’est pas parce qu’une personne craint d’avoir la grippe, ou dit qu’elle a la grippe qu’elle l’a vraiment, la donnée est donc très peu fiable. Et surtout se pose le problème de l’anonymat, car cette personne a un pseudo, généralement le même utilisé partout, et le croisement de toutes ses interventions sur la toile, permettra non seulement de la localiser, mais de lever son anonymat. La barrière éthique est franchie, et le sens de la donnée reste toujours aussi incertain. Dans le monde 3.0, c’est-à-dire les données recueillies par des machines (objets connectés par exemple), on est peu confronté au problème éthique puisque l’anonymat est respecté (l’authentification de la personne s’effectue dans son propre smartphone). Par contre, l’incertitude face à la donnée demeure : que veut dire un pouls à 70, une tension à 13/8 et un poids à 80 pour une taille à 1m80 pour un homme de 50 ans ? Rien si ce n’est que ce sont des chiffres normaux. Et si, à l’inverse, le même homme avait pesé 120 kg et présenté 110 de pouls et 17/10 de tension, on aurait pu dire au moment « t » de la prise de mesure qu’il a fait une poussée de tension, avec une petite tachycardie et qu’il est en surpoids important. So what ? On ne sait rien d’autre de lui, ce qui rend ces données sans valeur tant qu’elles n’ont pas été contextualisées. Et si on en tire des conclusions, on est à peu près certain qu’elles seront tout aussi fausses. La contextualisation, c’est de savoir, par exemple, si cette personne en surpoids est diabétique, si elle a eu une douleur dans la poitrine lors de cette poussée de tension, si celle-ci est survenue à l’effort, si elle a ressenti des palpitations, etc. Là, ces données auraient du sens, car remises dans un contexte et rapportées à une personne qui a des antécédents, un traitement éventuel, une histoire et qui souffre ou non de certains symptômes. Et là, on n’est plus dans le domaine des big datas, mais des smart datas.

Du big au smart !

Smart datas, cela signifie que les données ne sont pas seulement quantitatives, mais surtout qualitatives. Les « datas scientist » dans le domaine du marketing ont développé des algorithmes destinés à filtrer les données et surtout à les qualifier. Toute la difficulté réside dans cette qualification des données. Et, c’est bien là le hic ! Appliqué à la santé, le principe consisterait, face à cette personne qui avait de la fièvre, ou à cette autre qui pesait 120 kg, de l’interroger finement pour contextualiser sa plainte et/ou sa donnée numérique. De plus, il faudrait pouvoir conserver le caractère anonyme de ces données. Double casse-tête, car si on retrouve cette personne, son anonymat est levé (il faudra bien communiquer avec elle au travers d’un mail ou d’un pseudo), et il faut d’une part qu’elle réponde à cet interrogatoire, et que l’on soit certain qu’elle dise la vérité. Le recueil des données doit donc être fait auprès d’une personne consentante (dont convaincue du caractère gratuit, licite et éthique de l’interrogatoire), honnête (elle décrit des signes qui sont réels), et concernée (elle attend de cette expression de ses symptômes un diagnostic ou un avis). Le recueil des smart datas ne peut donc se faire que grâce à un système expert de recueil des données, gratuit, ne nécessitant aucune authentification ni inscription, et simulant l’interrogatoire par un médecin.

Le site e-docteur.com, depuis 2014 a recueilli plus de 360 000 questionnaires entièrement remplis, qui a généré près de 10 000 commentaires, avec une satisfaction d’un peu plus de 80 %. Ces données sont totalement anonymes, horodatées, géolocalisables par demande du code postal (rempli dans la quasi-totalité des cas) et elles sont théoriquement géolocalisables plus finement grâce à l’adresse IP. L’analyse de cette masse de données est en cours, et a montré par exemple le faible impact de la grippe de 2014, et le fort impact de la grippe 2015. Ces données vont nous permettre à partir du déclaratif des visiteurs du site, de savoir bien évidemment la localisation de chaque cas probable, mais également les symptomatologies précises (fièvre et à combien, courbatures, maux de tête, etc.), les antécédents de ces personnes, la probabilité que ces symptômes correspondent à la grippe ou à autre chose, et le degré de gravité de leur état. On est passé des big datas aux smart datas, grâce à la qualification des symptômes par un système expert. Ce qui fait que ces données sont fiables, c’est que les personnes ont consulté le site parce qu’elles voulaient savoir ce qu’elles avaient, et qu’elles en attendaient des conseils pour se soulager. L’analyse des commentaires et des cas « non-sens », montre que le nombre de questionnaires remplis de façon fantaisiste ou simplement pour tester sans que ce soit une réalité, est inférieur à 1 %. Ce système qui est en mesure de suspecter un peu moins de 700 diagnostics, sera mis sur des téléphones portables en relation avec des objets connectés, courant 2016. On disposera alors d’une masse importante de données qualifiées, horodatées, géolocalisées et anonymisées. On peut donc résumer les caractéristiques des smart datas à 5 points fondateurs : Volumétrie, Gratuité, Géolocalisation, Horodatage, Qualification, Anonymat. Dans l’avenir, avec des objets connectés reliés à un système expert intelligent, et reportés à l’échelle d’un pays, notamment en voie de développement, on pourra ainsi faire de l’épidémiologie en temps réel et de la prévention 3.0.

Source : www.zeblogsante.com

Ecrit par Dr Loïc ETIENNE Urgentiste, expert en santé 3.0 et médecine 3.0