Data-science : la révolution invisible

BIG DATA | par Guénolé Carré | 20 Juillet 2021

Depuis l’invention de l’écriture, l’humanité n’a eu de cesse de produire un volume toujours croissant d’informations. Aujourd’hui, avec le développement d’internet, cette quantité est devenue tout bonnement ahurissante et croit à une vitesse toujours plus rapide.
Pour la recherche scientifique, cette avalanche de données ouvre la voie à des découvertes inédites pour qui sait les analyser. C’est dans ce but, qu’a vu le jour une toute nouvelle discipline : la data-science.

Affirmer que l’humanité produit de plus en plus d’informations sonne aujourd’hui comme un doux euphémisme au regard de la réalité. Depuis, la démocratisation d’internet et plus encore ces dernières années, la quantité d’informations créées annuellement croit à une vitesse tout bonnement vertigineuse. Au cours de l’année 2020, il a été produit, enregistrée ou copié la quantité astronomique de 64 zettabits contre seulement 2 en 2010. Des chiffres qui peuvent sembler abstraits tant il est difficile de se les représenter mais qui se traduisent par une réalité à peine croyable : l’an passé, il a été produit autant d’informations que toute l’humanité n’en avait produite jusqu’en 2016...

La recherche scientifique n’échappe bien entendu pas à ce tsunami. Depuis quelques décennies, les progrès techniques accomplis dans certaines disciplines se sont accompagnés d’une production de données extrêmement importante. Là où il avait fallu plus de 10 ans et une coopération internationale pour séquencer les 3,2 milliards de nucléotides du génome humain, les séquenceurs haut débit actuels s’en chargent en une heure pour un cout incomparablement moindre. Outre la génétique, les analyses protéomique et épigénétique – toutes deux en plein boom – mais également l’astronomie et la physique des particules produisent également des quantités considérables d’informations.

En 2020, il a été produit autant d’informations que toute l’humanité n’en avait produite jusqu’en 2016

Analyser des données pour en identifier certains patterns et ainsi en extraire des résultats, l’idée ne date pas d’hier. Au XVIIIème siècle, l’invention de la régression linéaire par Roger Joseph Boscovich puis son perfectionnement par Legendre et Gauss laissait déjà entrevoir l’avènement des algorithmes prédictifs.

Aujourd’hui à l’ère de l’informatique, la quantité d’informations à manipuler a rendu impératif l’utilisation de programmes dédiés. Dès la fin des années 1960, les « systèmes experts » incarnaient les premiers représentants de ce qu’on définit aujourd’hui comme « intelligence artificielle ». Ces programmes permettent de synthétiser des connaissances dans un domaine précis et de les restituer rapidement à partir de questions simples à des personnes ne possédant pas de connaissances particulières dans ce domaine. Aujourd’hui en plein essor, le machine-learning dote l’informatique d’une capacité jusque-là propre au vivant : celle de l’apprentissage. Ces systèmes font d’ores et déjà leurs preuves dans des usages aussi divers que la médecine ou l’analyse financière.

Selon Rodolphe Thiébaut, directeur de l’équipe de recherche SISTM (Statistics in System biology and Translational Medicine), le travail sur le big-data représente une opportunité incroyable pour la recherche. Rattaché au Bordeaux Population Health et issu d’une collaboration entre l’INSERM et l’INRIA, son groupe planche sur les applications du big-data dans les domaines de la recherche biologique et médicale.

Comprendre comment un vaccin fonctionne à l’échelle d’un seul individu. Identifier les facteurs qui font que la réponse à un médicament est parfois radicalement différente d’une personne à l’autre, ce sont des questions auxquelles le big-data pourrait apporter des éléments de réponse. À la clé, le rêve d’une « vaccinologie personnalisée » – selon les mots de Rodolphe Thiébaut – avec une formule adaptée au métabolisme de chaque patient pour une efficacité maximale.

Loin de se cantonner au monde de la recherche, les applications du traitement massif de données se sont d’ores et déjà implantées presque partout dans notre quotidien. Bien au-delà de se cantonner à nous proposer des publicités ciblées sur internet, l’ombre du big-data se cache également derrière des activités aussi triviales que celle d’utiliser une application de navigation GPS ou de se servir d’un comparateur de prix sur une plateforme de e-commerce.

« Il y a un défi technique de stockage et de transfert des données »

En médecine, les algorithmes d’apprentissage profond sont en passe de se généraliser dans le domaine de la radiologie. Analysant la quantité d’informations considérable produite par les appareils d’imagerie, ces programmes sont à même d’identifier quasi instantanément certaines anomalies telles que des tumeurs ou des lésions infectieuses qui auraient pu par leur taille, passer inaperçu auprès d’un opérateur humain. Selon Rodolphe Thiébaut, le succès de cette méthode aurait d’ailleurs entrainé une explosion de l’usage du deep-learning dans le domaine médical.

La science des données est donc bien là et son avenir fait peu de doutes. Pourtant, sa généralisation à autant de facettes de notre existence n’est pas sans soulever certaines questions. Ainsi, cette masse de données à transférer et stocker nécessite des infrastructures à la mesure de leur gigantisme. Rodolphe Thiébaut l’avoue lui-même : « Il y a un défi technique de stockage et de transfert des données ». En ligne de mire, les data-centers – ces plateformes où de grandes quantités de données sont stockées informatiquement – sont particulièrement voraces en énergie. Dans le monde, on estime que ces derniers sont à l’origine de 1 à 2% de la consommation mondiale d’électricité (internet dans sa globalité en est responsable de 10%). À l’aube d’un monde bouleversé par le changement climatique, les nouvelles générations de data centers devront donc, selon Rodolphe Thiébaut, offrir une meilleure efficience énergétique, surtout compte tenu de l’augmentation attendue de leur taille.

Également pointée, la confidentialité des données est pour lui un autre point important. S’assurer de la localisation de ces dernières et mieux en contrôler l’accès représente selon lui des points importants pour leur gestion responsable. Dans la ligne du Règlement général pour la protection des données (RGPD), des dispositions légales devront être mises en œuvre pour mieux protéger les individus.

De par son développement rapide, les importantes questions liées à l’irruption du big-data dans notre quotidien ne sauraient laisser indifférent. Au même titre que pour des sujets comme le changement climatique, le nucléaire, ou l’expérimentation animale, cette question est de celles qui dépassent largement les murs des laboratoires. De ce fait, en plus d’incarner un enjeu central de notre monde, le big-data nous font aussi prendre conscience d’un fait frappant : celui de l’intrication intime qui lie science et société.

Par Guénolé CARRÉ

Sources :

1 - Interview de Rodolphe Thiébaut

2 - Rapport d’activité du laboratoire SISTM : https://raweb.inria.fr/rapportsactivite/RA2020/sistm/index.html#SISTM-RA-2020uid14

3 - Site web du Bordeaux Population Health : https://www.bordeaux-population-health.center/les-equipes/

4 - Article « du big bang au big data » : https://fr.statista.com/infographie/17800/big-data-evolution-quantite-donnees-numeriques-creees-dans-le-monde/

5 - Conférence de Rodolphe Thiébaut « le big data vu par les épidémiologistes » : https://www.youtube.com/watch?v=G3LSb_wHrfU

6 - Vidéo de la chaine YouTube « Science4all » sur la régression linéaire : https://www.youtube.com/watch?v=Ee8gLwVCPxg

Voir tous les articles