Petite introduction aux Big data : la machine à explorer les faits

Distance au Mc Donalds le plus proche (Etienne Côme, 2013)

“It is a capital mistake to theorize before one has data. Insensibly one begins to twist facts to suit theories, instead of theories to suit facts.”

C’est une erreur capitale d’élaborer des théories avant d’avoir les données. Petit à petit, on modifie les faits pour qu’ils correspondent aux théories, au lieu d’élaborer des théories qui correspondent aux faits.

—Sherlock Holmes, A Study in Scarlett, Une étude en rouge (Arthur Conan Doyle, 1887, http://fr.wikipedia.org/wiki/Une_étude_en_rouge)

Boostées par le caractère ubiquitaire des appareils numériques (ordinateurs, téléphones, capteurs, objets), par l’ultra-connexion et par l’augmentation des débits, les données numériques produites ou utilisées par les particuliers, les entreprises ou les organismes connaissent  une croissance exponentielle qui devrait se poursuivre dans les dix prochaines années. Rassemblées en masse, dans des volumes dépassant le téraoctet (1000 Go) ou le pétaoctet (1000 To), ces big data sont constituées de textes, d’images, de sons, de vidéos et de leurs métadonnées, de messages électroniques, de données sociales et factuelles, de mesures provenant de capteurs en tous genres. Des histoires à succès récentes montrent que ces données de différentes natures peuvent être analysées conjointement pour générer des renseignements présentant une importante valeur ajoutée. Les big data sont classiquement présentées comme respectant la règle des 3V : Volume, Vélocité et Variété. La vélocité désigne la génération et la mesure en continu. La variété fait référence au fait que des données diverses (réseaux sociaux, données géographiques, données d’entreprise, données bibliographiques) sont rassemblées et analysées conjointement. Les techniques employées relèvent du « text mining » (analyse automatique des textes), du « data mining » (analyse d’images, de vidéos, etc) et de la « dataviz » (visualisation d’informations quantitatives sur des graphes et des cartes). De la fiabilité des données d’origine dépend la justesse des raisonnements ultérieurs, d’où le quatrième V parfois ajouté, celui de Véracité.

L’écosystème big data

Une vue nocturne de l'Europe visualisant les rayonnements nocturnes infra-rouges (NASA)

Une vue nocturne de l’Europe visualisant les rayonnements nocturnes infra-rouges (NASA)

Un écosystème informatique particulier, différent des traditionnels moteurs de recherche et bases de données relationnelles, a dû être développé. Les stockages et traitements sont réalisés dans des clusters de serveurs gérés à l’aide de logiciels tels que Hadoop, de systèmes de bases de données NoSQL comme MongoDB, Cassandra ou CouchDB, localisés éventuellement dans des clouds. Des logiciels parmi lesquels on peut citer R ou javascript (d3.js) permettent la création des graphes et outils interactifs. D’importantes sociétés commerciales telles que Google, Facebook, Yahoo, Twitter, mais aussi des startups sont à l’origine de ces logiciels dont certains sont libres, gérés notamment par la fondation Apache. Le traitement des données aboutit à la production de tableaux de bord composés de cartes, de chronologies ou de graphes. Ces éléments visuels facilitent l’appréhension globale et intuitive des informations présentes en grande quantité. Le passage des graphes aux données se fait en cliquant sur les courbes et les tableaux. La démarche permet de vérifier la validité des sources, d’élaborer des raisonnements basés sur des faits réels et non sur des affirmations ou des hypothèses. L’obtention des résultats et l’interprétation sont généralement confiées à de petites équipes de spécialistes ou de consultants  réunissant des compétences informatiques, statistiques, relatives au métier, et aux techniques de communication. Les données sont préalablement réunies dans un réservoir appelé « datawarehouse ». Des tableaux de bord servent ensuite à l’élaboration de rapports destinés à une variété de publics incluant des directeurs, des chercheurs ou des utilisateurs.

Usages, modèles et théories

Bien que la technique soit encore émergente, les applications s’avèrent prometteuses et concernent des secteurs aussi divers que l’industrie, la distribution, les transports, la finance, les banques, l’assurance, la défense, la sécurité, la vie domestique ou les loisirs, la culture, la communication, le journalisme de données, la santé et les sciences. Il s’agit d’optimiser des processus, de cibler des actions, d’analyser des marchés, de détecter des opportunités ou des menaces, de mettre en évidence des phénomènes rares ou multimodaux, voire de tenter de prédire à l’aide des statistiques des évolutions probables ou de détecter des évènements récurrents, des motifs répétés. Des phénomènes subtils qui auraient été autrement ignorés ou mésestimés, car enfouis dans la masse, peuvent ainsi être mis en évidence.

Les big data concernent en simplifiant quatre grands types d’acteurs. (1) Le citoyen attend des big data qu’elles augmentent son confort, sa santé, sa sécurité. Les individus sont impliqués à différents titres. La récolte massive des données accompagne en effet la vie de toute personne connectée à internet ou à un réseau, abonnée à un service, utilisant une messagerie ou un moteur de recherche, possédant des objets connectés tel qu’un smartphone, effectuant des achats. (2) L’entreprise espère mieux connaître ses clients, développer de nouveaux marchés, vendre plus et mieux, cibler ses publicités, accroitre ses performances, optimiser ses processus. Les big data sont une des composantes de l’informatique décisionnelle (Business Intelligence). (3) Les états souhaitent rendre plus efficace leur fonctionnement, lutter contre la fraude et la délinquance, œuvrer dans le domaine de la sécurité intérieure ou extérieure, augmenter leur efficacité, évaluer et promouvoir des politiques. (4) Les big data trouvent enfin des applications dans différentes disciplines scientifiques incluant l’astronomie, la physique des particules, la biologie moléculaire, l’étude des génomes, l’environnement. Des applications à venir concerneront sans doute les humanités numériques, l’histoire, la sociologie, l’archéologie, l’information et la culture (bibliothèques, archives, musées).

Paru en 2008 dans le magazine « Wired », le célèbre éditorial de Chris Anderson « The End of Theory » montre le changement que la manipulation de pétaoctets de données induit dans les pratiques et raisonnements des scientifiques de différentes disciplines. Les big data sont souvent présentées comme un changement de paradigme. L’élaboration de théories ne serait plus nécessaire à la compréhension des phénomènes observés, la constatation de corrélations conduirait à des conclusions empiriques suffisantes pour l’action. Nous reviendrons dans un autre article sur ce billet parfois présenté comme fondateur de la philosophie des big data. « The End of Theory » reste une théorie !

Conclusion

Big Data visualisation

“Big Data visualisation” par stefanobe sur Flickr : https://www.flickr.com/photos/stefanobe/

Ainsi, – les faits d’abord et avant tout ! – nous assure l’inspirant Sherlock Homes. Mais comment résoudre une énigme lorsque le nombre d’indice dépasse le milliard et que ceux-ci sont de différentes natures ? En introduisant un changement d’échelle dans la capacité des machines à traiter de grandes quantités d’informations, les big data associées à l’informatique en nuages et aux représentations statistiques ont introduit une méthode prometteuse pour mieux comprendre notre environnement. Mais comme toute technologie, l’usage des big data présente un certain nombre de risques. Bien mis en évidence par Edward Snowden en 2013, le premier de ceux-ci est sans doute l’atteinte à la vie privée qui peut être le fait aussi bien d’états que d’entreprises. Des informations sensibles relatives à la santé, aux revenus, aux appartenances ethniques, aux opinions politiques ou religieuses, au déplacement des personnes devraient sans doute être mieux protégées qu’elles ne le sont actuellement. Ainsi, les thèmes politiques abordés par un candidat président peuvent s’appuyer en partie sur des analyses prenant en compte l’opinion momentanée et changeante des électeurs. Des questions éthiques, morales et légales se posent, susceptibles de présenter des conséquences économiques ou politiques.

D’autres aspects des big data s’avèrent plus enthousiasmants. Ce secteur en plein boom s’appuie en grande partie sur des logiciels libres, utilise des données ouvertes gouvernementales, fait grand usage des données des réseaux sociaux.Une activité effervescente se produit actuellement autour de ces technologies. Des petites entreprises se créent, des grandes entreprises mettent en place les structures et les moyens adéquats, de nouvelles formations sont proposées, de nouveaux métiers apparaissent tel que ceux de « data scientist », journaliste de données, etc. Cette agitation se base sur un rêve : celui de créer des machines à explorer les faits, le temps (Venice Time Machine, Internet Archive : WayBackMachine), les lieux (OpenStreetMap), les thèmes, les réseeaux de personnes et d’organismes, celui de transformer les données en connaissances.

Quelques exemples

Si la manipulation réelle de données de masse est réservé à des spécialistes, quelques services du web donnent une petite idée des principes mis en œuvre et de l’intérêt de tels outils pour les entreprises comme pour les scientifiques.

Ngram Viewer

Ngram Viewer - GoogleDéveloppé par Google et lancé en 2010, le service Ngram Viewer produit en temps réel une chronologie qui montre la fréquence d’emploi d’une locution dans le texte intégral des livres de Google Books. Si on admet que Google Books offre un bon reflet de la production littéraire ou scientifique mondiale, il devient possible d’étudier l’apparition ou la disparition de certaines expressions ou les noms de certains auteurs. On peut à titre d’exemple visualiser la fréquence d’emploi de termes comme “Henri Poincare” (sans l’accent), “big data”, “business intelligence”, “data visualization”. L’étude du graphique montre la stabilité d’usage du terme « Henri Poincaré » qui servira de témoin. NgramViewer peut servir d’outil pour des études de bibliométrie ou d’histoire portant sur le temps long. Essayez le service avec les termes de votre choix !

Google Trends

google-trendsLancé en 2012 avec une interface innovante, le service Google Trends permet de connaître le fréquence de recherche d’une locution dans le moteur Google. Le service affiche une chronologie, une carte des tendances par pays et une liste de recherches associées. Lorsque la question précédente est jouée de nouveau, on observe un graphe différent de celui de Ngram Viewer. L’intérêt croissant pour les big data apparait marquant dès 2011. Une case à cocher propose une prévision pour les 6 prochains mois, tentant de modéliser des phénomènes réguliers. Une fonctionnalité intégrée à la carte (voir l’évolution au fil du temps), permet de visualiser l’évolution des interrogations par pays, et de mettre ainsi en évidence des modèles de transmission de l’information propre à un pays ou passant les frontières. Google Trends permet, comme son nom l’indique, d’analyser les tendances récentes, présentant un grand intérêt dans le domaine de l’intelligence économique. Son utilisation pour des recherches relevant de la prospective ou de la sociologie est possible.

D’autres exemples

Sociétés de services françaises actives dans le « text-mining » des « big data »

Quelques liens

  1. Poster un commentaire

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :