GDELT, le Nostradamus technologique ?

Version texteEnvoi par courriel.
GDELT
GDELT est la base de données ouverte la plus large, la plus complète de la société humaine jamais créée. Création d'une plate-forme qui surveille les médias du monde entier de presque tous les pays dans les formats imprimés, diffusés et Web, dans plus de 100 langues, chaque moment de chaque jour et qui remonte au 1er janvier 1979 jusqu'à nos jours, avec mises à jour quotidiennes, a nécessité une gamme sans précédent d'innovations techniques et méthodologiques, de partenariats et de nouveaux modes de pensée pour rassembler tout cela et en faire une réalité. Créer une base de données d'un quart de milliard de documents géoréférencés couvrant le monde entier sur 30 ans, couplé aux réseaux massifs qui relient toutes les personnes, organisations, lieux, thèmes et émotions sous-jacents à ces événements, exigeait non seulement de relever des défis sans précédent, mais aussi une "réimagination" de la façon dont nous interagissons et pensons les données informatiques à l'échelle de la société.
 
A parcourir les pages consacrées au projet, on peut se demander si GDELT est un instrument de prédiction du futur, un détecteur de “tendances”, un révélateur d’opinions ou de sentiment? Selon Kalev Hannes Leetaru, le lead créateur du système lancé en 2013. G.D.E.L.T., en toutes lettres, signifie Global Database of Events, Language, and Tone, autrement dit le plus vaste entrepôt d’informations “sociales” accessibles aujourd’hui publiquement. A priori, voilà donc un énième projet scientifique bâti au carrefour de l’univers des data sciences et des problématiques sociétales comme la gestion des crises humanitaires et du risque, des soubresauts de l’économie ou de la géopolitique ou la détection des “influenceurs” à différentes échelles sociétales. A priori seulement.
 
Car, à y regarder de plus près, la base GDELT est un univers relativement complet côté technique, presque fascinant étant donnée son amplitude en termes de contenus accessibles et, aussi, étant donnés ses objectifs “sociaux” ou “politiques” au sens plein du terme. La base de données GDELT frappe d’abord par son amplitude: plus de 200 millions “d’événements” y sont archivés couvrant aussi bien les champs du politiques, de l’économie, de la santé (épidémies) ou les conflits géopolitiques. Et la base intègre chaque jour plus de 30.000 à 100.000 “événements”. GDELT intègre des traitement sur plus de 100 langues dans la plupart des formats disponibles (web réseaux sociaux, médias, images, sons, livres ou documents numérisés, informations légales, etc.), en notant au passage que le système intègre des données récoltées depuis…1979. On reconnaît là les compétences de K. Leetaru acquises au National Center for Supercomputing Applications, le fameux NCSA où est né Mosaïc.
 
Mais une telle surface de récolte de data pour quoi faire? En premier lieu GDELT représente aujourd’hui un immense terrain d’expérimentation pour le big data, notamment la recherche de “patterns” large-scale et orientés social data mining.  La segmentation des silos informationnels du projet rappelle cette orientation sociétale où les data semblent mises au service de l’observation, de la décision voire de la prédiction collective pour affronter les principaux défis de notre temps.
 
Mais la véritable plus-value du projet GELT semble résider dans l’écosystème technologique dans lequel il prend place. GELT est né chez des experts du web qui pensent leur projet pour la place qu’il occupera rapidement dans un environnement de données multi-sources, sous de formes de flux et en masses avec lesquels il est connecté et, en retour, rediffuse sur le réseau les données raffinées. Cet "esprit réseau" n’est guère étonnant quand on regarde les sociétés et les organisations qui soutiennent GDELT: Google Ideas, Google Cloud, Google and Google News, the Yahoo! Fellowship at Georgetown University, BBC Monitoring, the National Academies Keck Futures Program, Reed Elsevier’s LexisNexis Group, JSTOR, DTIC, and the Internet Archive…
 
C’est là qu’interviennent les éléments en réseau, les graphes et, peut-être, des formes de cartographies thématiques à produire ou à inventer. GELT propose, en effet, une forme générique de graphes (compatibles avec Gephi cité comme “connecteur” dans le projet, tout comme SigmaJS que les initiateurs du projet proposent comme instrument d’exploration des données). 
 
La nouvelle version, GDELT-GKG2 désormais accessible, est remise à jour toutes les 15 minutes. Une performance que l’on doit aux compétences de K. Leetaru et à son collègue Philip Schrodt qui continuent à superviser les lignes de code du système.
 
GDELT propose une “boîte à outils” pour différents connecteurs qui rend les masses de données exploitables, pour peu que l’on sache les interroger intelligemment. Si les aspects techniques en rebutent certains, on pourra lire le rapport quotidien de “tendances” ou parcourir le blog déjà très riche d’études réalisées avec le système. Que de masses à explorer, et de méthodes nouvelles à inventer. Du moins, tant que le projet reste ouvert aux expérimentations, et donc à l’invention de nouveaux services.

Médias Sociaux et Flux RSS

Twitter icon
Google+ icon
YouTube icon
RSS icon