Petites réflexions sur le Big Data

Publié le 1 Juin 2012

Avec la croissance d'internet, de l'usage des réseaux sociaux, de la téléphonie mobile, des objets connectés et communicants, l'information est aujourd'hui plus abondante que jamais et sa production accélère en volume. Une étude du cabinet McKinsey, datée de mai 2011, estime qu'en 2010, les entreprises auraient stocké 7 Exaoctets (Eo) supplémentaires de données, et les particuliers 6 Eo : un Exaoctet vaut environ 1 million de Teraoctets, soit la capacité standard d'un gros disque dur.

On peut tenter de mettre ces quantités vertigineuses en perspective et rendre ces enjeux préhensibles en précisant que :

  • C'est depuis 2007 que l'humanité produit plus de données que de capacité à les stocker.
  • 1 Eo représente environ 10.000 fois la capacité de la Bibliothèque du Congrès Américain.
  • L'humanité a produit environ 5 Eo de données depuis son avènement jusqu'en 2003. En 2010, il suffisait de deux jours environ pour produire la même quantité.

Face à cette profusion d'informations, de plus en plus hétérogènes et de moins en moins structurées, un des enjeux majeurs pour l'ensemble des acteurs économiques dans les dix ans à venir sera leur capacité à exploiter, analyser et transformer en valeur ces avalanches de données produites, et ce, si possible, en temps réel. 

Plusieurs phénomènes de fond concourent à l'irruption des données dans toute la chaîne de valeur des produits et des services:

  1. La numérisation de l'ensemble des procédés, qu'ils soient scientifiques, industriels, marchands, voire désormais personnels a comme le dirait Yves Caseau "digitalisé la vie". Les soucis de traçabilité (sécuritaire, prudentielle, ou narcissique) font que la plupart de ces procédés génèrent des "logs". D'une certaine manière, le "Big Data" signe l'avènement du "log" comme produit en tant que tel, ou du moins comme matière première et non plus effet de bord.
  2. Le prix du stockage s'est effondré.  Une image valant mille mots, en voici une illustration

Bigdata

La différenciation des offres de produits et services grand public [1], dans le domaine de la High Tech, a commencé il y a 30 ans par le matériel (l'ère IBM). Puis la bataille s'est déplacée sur le terrain des systèmes d'exploitation (l'ère Microsoft) avant que les systèmes d'exploitation ne deviennent eux-même des commodités ne se distinguant plus par leurs couches basses mais par les interfaces utilisateurs (comme HTC l'a montré dès 2010 en réhabillant Windows Mobile et Android de sa surcouche tactile « Sense »); cette tendance de fond a été amplifiée par l'avènement du smartphone et l'irruption de l'iPhone, dont l'interface a ringardisé et Nokia et RIM en l'espace de 4 ans. La bataille se joue désormais sur les plateformes mobiles dont l'épicentre s'est déplacé vers les Etats-Unis, se concentrant plus précisément dans la "Bay Area". Avec la disparition programmée de Symbian, il n'y a en effet plus de savoir faire complet en OS en Europe, et les meilleurs designers d'interfaces sont désormais recrutés - parfois même en Europe - par des entreprises de la Silicon Valley.

Désormais, tous les smartphones sont de même forme et de même aspect, tactiles, avec zéro ou un bouton, et toutes les interfaces convergent. Déjà pointe la prochaine vague de différenciation et de captation de la valeur, qui sera fondée sur la capacité à détecter, exploiter et enrichir le(s) contexte(s) d'usage(s) : ce sera la bataille du sens et de la pertinence, rendue inévitable par la réduction simultanée de la patience et de la capacité d'attention des utilisateurs. C'est sur la gestion du contexte et de la pertinence qu'investissent massivement Google, Apple (avec Siri), et Facebook sans concurrence réelle à ce jour.

Gagner la bataille du contexte suppose en effet d'exploiter le moindre détail et de mesurer la moindre interaction. La technologie, la mobilité ont multiplié ces interactions sur le plan qualitatif (géolocalisation, données personnelles) comme sur le plan quantitatif (les applications mobiles multipliant les occasions d'usage tout au long de la journée). La grande majorité des "apps" sur smartphone capturent le moindre de vos gestes, parfois couplés à votre localisation, et les renvoient "chez maman" où elles sont analysées via des modules comme Flurry Analytics.
Accumulées sur la « durée de vie du client », ces données permettent à des acteurs tels que Facebook ou Amazon de stocker certaines informations personnelles, sur les profils, les derniers achats, les dernières pages web consultées, pour ensuite les analyser et proposer des produits à leurs clients en adéquation avec leurs besoins et centres d'intérêts immédiats.


Cette capacité à extraire, stocker, croiser des masses de données hétérogènes en vue de les interpréter le plus rapidement possible est un des grands défis technologiques à venir pour les acteurs du numérique dans une société de plus en plus tournée vers une satisfaction instantanée des besoins. Ce sujet pourrait ainsi devenir, à l'instar du cloud computing auquel ces pratiques de «Big Data» sont liées, un enjeu de souveraineté.
Nous n'abordons pas ici la nécessaire question du décalage rapide et croissant entre ces technologies et les corpus legislatifs qui assurent la nécessaire protection de la vie privée. Un tel décalage constitue en effet une formidable opportunité d'envisager une réforme qui permette l'exercice effectif du droit d'accès et la mise en place du droit à l'oubli, qui méritera une tribune à part entière.

Les Big Data sont également au coeur de services crowdsourcés (c'est à dire co-construits avec un grand nombre d'utilisateurs dont l'usage même fournit la donnée) comme l'israélien Waze (système de navigation dans lequel les cartes, les POI, les incidents et les trajets optimaux sont générés par les utilisateurs eux-mêmes) ou le français Sensorly, qui constitue et rafraîchit en temps réel des cartes de couverture radio GSM et WiFi à partir des smartphones de sa communauté d'utilisateurs.
Mais bien avant que les utilisateurs, éduqués par les usages de réseaux sociaux, se mettent à contribuer volontairement, ils étaient déjà producteurs passifs de données permettant par exemple d'optimiser le prix des pas de porte dans les centres commerciaux, grâce aux données de signalisations anonymes mais uniques émises par tout mobile dès lors qu'il est allumé.

Enfin, parmi les outils d'analyse de ces données particulièrement novateurs figurent les graphes, qui permettent de cartographier les interactions entre acteurs d'un réseau. Ils permettent de modéliser les dynamiques des petits groupes et sont générés en temps réel et de façon automatisée, pour le ciblage de la publicité, mais on peut aussi les agréger pour détecter des tendances, des mouvements d'opinion, des usages émergents.

L'approche « analytics » peut également remettre en cause en profondeur la conception même des produits et services, en incorporant dès la phase de prototypage l'ajout de points de mesure et l'exploitation des données d'usage en boucle courte (funnels, A/B testing, ...), à l'instar de la transformation en cours dans le monde de la relation client avec le passage du CRM (Customer Relationship Management) au CLM (Closed Loop Marketing). De nouvelles méthodologies de développement voient le jour, très différentes de celles pratiquées par la génération précédente, et qui supposeront un effort important de formation initiale et continue.

Toutes ces nouvelles technologies définissent de nouveaux profils de compétences, notamment de Data Scientist, profils très rares car il n'existe pas encore de formations académiques pour répondre à cette demande. Ces profils sont complexes car ils ne font pas uniquement appel aux solides compétences mathématiques et abstraites dont regorge notre pays [2], mais impliquent également une capacité à extraire du sens et à rendre les données intelligibles ou tout du moins visualisables. La part laissée à l'expérimentation dans ce domaine est fondamentale, et nécessite d'avoir accès à des corpus de données considérables

Pour les Etats-Unis, McKinsey prévoit un déficit de 140 000 à 190 000 spécialistes en analyse de données d'ici à 2018. Constituer ce vivier de compétences est un processus long et difficile, où se jouera sans doute une partie de la compétition de demain. La même problématique se pose aux pays européens et à la France.

La presse généraliste commence à percevoir l'ampleur des enjeux autour du "Big Data", qualifié par certains de "pétrole du XXIè siècle" et de plus en plus associé au "Big Business". On découvre qu'il existe en France plusieurs spécialistes du sujet, disposant pour certains d'une avance considérable dans le domaine, et dont la compétence commence à attirer l'intérêt, comme par exemple MFGLabs ou HyperCube récemment acquis par le cabinet BearingPoint.

C'est dans ce contexte que le Gouvernement a annoncé en mars, dans le cadre du Programme d'Investissements d'Avenir, le lancement d'un Appel à Projets sur la thématique du Big Data doté de 25 M€...

... à suivre !


 

[1] Et de plus en plus, professionnels également : la tendance d'équipement et donc d'usages s'est en effet inversée en une génération et désormais, la génération Y rejoint le monde de l'entreprise en étant souvent déjà (et mieux) équipée, c'est la tendance récente du « BYOD » (Bring Your Own Device)

[2] En nombre de médailles Fields rapporté à la population, la France est de très loin en tête. Et la domination française ne faiblit pas : depuis 2002, quatre médailles Fields sur les 10 décernées sont françaises (aucune pour les Etats-Unis). En 1911, le plus grand mathématicien vivant était français (Henri Poincaré); en 2011, le plus grand mathématicien vivant est français (Alain Connes)...