Petites réflexions sur le Big Data

Avec la croissance d’internet, de l’usage des réseaux sociaux, de la téléphonie mobile, des objets connectés et communicants, l’information est aujourd’hui plus abondante que jamais et sa production accélère en volume. Une étude du cabinet McKinsey, datée de mai 2011, estime qu’en 2010, les entreprises auraient stocké 7 Exaoctets (Eo) supplémentaires de données, et les particuliers 6 Eo : un Exaoctet vaut environ 1 million de Teraoctets, soit la capacité standard d’un gros disque dur.

On peut tenter de mettre ces quantités vertigineuses en perspective et rendre ces enjeux préhensibles en précisant que :

  • C’est depuis 2007 que l’humanité produit plus de données que de capacité à les stocker.
  • 1 Eo représente environ 10.000 fois la capacité de la Bibliothèque du Congrès Américain.
  • L’humanité a produit environ 5 Eo de données depuis son avènement jusqu’en 2003. En 2010, il suffisait de deux jours environ pour produire la même quantité.

Face à cette profusion d’informations, de plus en plus hétérogènes et de moins en moins structurées, un des enjeux majeurs pour l’ensemble des acteurs économiques dans les dix ans à venir sera leur capacité à exploiter, analyser et transformer en valeur ces avalanches de données produites, et ce, si possible, en temps réel.

Plusieurs phénomènes de fond concourent à l’irruption des données dans toute la chaîne de valeur des produits et des services:

  1. La numérisation de l’ensemble des procédés, qu’ils soient scientifiques, industriels, marchands, voire désormais personnels a comme le dirait Yves Caseau « digitalisé la vie ». Les soucis de traçabilité (sécuritaire, prudentielle, ou narcissique) font que la plupart de ces procédés génèrent des « logs ». D’une certaine manière, le « Big Data » signe l’avènement du « log » comme produit en tant que tel, ou du moins comme matière première et non plus effet de bord.
  2. Le prix du stockage s’est effondré. Une image valant mille mots, en voici une illustration
Bigdata

La différenciation des offres de produits et services grand public [1], dans le domaine de la High Tech, a commencé il y a 30 ans par le matériel (l’ère IBM). Puis la bataille s’est déplacée sur le terrain des systèmes d’exploitation (l’ère Microsoft) avant que les systèmes d’exploitation ne deviennent eux-même des commodités ne se distinguant plus par leurs couches basses mais par les interfaces utilisateurs (comme HTC l’a montré dès 2010 en réhabillant Windows Mobile et Android de sa surcouche tactile « Sense »); cette tendance de fond a été amplifiée par l’avènement du smartphone et l’irruption de l’iPhone, dont l’interface a ringardisé et Nokia et RIM en l’espace de 4 ans. La bataille se joue désormais sur les plateformes mobiles dont l’épicentre s’est déplacé vers les Etats-Unis, se concentrant plus précisément dans la « Bay Area ». Avec la disparition programmée de Symbian, il n’y a en effet plus de savoir faire complet en OS en Europe, et les meilleurs designers d’interfaces sont désormais recrutés – parfois même en Europe – par des entreprises de la Silicon Valley.

Désormais, tous les smartphones sont de même forme et de même aspect, tactiles, avec zéro ou un bouton, et toutes les interfaces convergent. Déjà pointe la prochaine vague de différenciation et de captation de la valeur, qui sera fondée sur la capacité à détecter, exploiter et enrichir le(s) contexte(s) d’usage(s) : ce sera la bataille du sens et de la pertinence, rendue inévitable par la réduction simultanée de la patience et de la capacité d’attention des utilisateurs. C’est sur la gestion du contexte et de la pertinence qu’investissent massivement Google, Apple (avec Siri), et Facebook sans concurrence réelle à ce jour.

Gagner la bataille du contexte suppose en effet d’exploiter le moindre détail et de mesurer la moindre interaction. La technologie, la mobilité ont multiplié ces interactions sur le plan qualitatif (géolocalisation, données personnelles) comme sur le plan quantitatif (les applications mobiles multipliant les occasions d’usage tout au long de la journée). La grande majorité des « apps » sur smartphone capturent le moindre de vos gestes, parfois couplés à votre localisation, et les renvoient « chez maman » où elles sont analysées via des modules comme Flurry Analytics.
Accumulées sur la « durée de vie du client », ces données permettent à des acteurs tels que Facebook ou Amazon de stocker certaines informations personnelles, sur les profils, les derniers achats, les dernières pages web consultées, pour ensuite les analyser et proposer des produits à leurs clients en adéquation avec leurs besoins et centres d’intérêts immédiats.


Cette capacité à extraire, stocker, croiser des masses de données hétérogènes en vue de les interpréter le plus rapidement possible est un des grands défis technologiques à venir pour les acteurs du numérique dans une société de plus en plus tournée vers une satisfaction instantanée des besoins. Ce sujet pourrait ainsi devenir, à l’instar du cloud computing auquel ces pratiques de «Big Data» sont liées, un enjeu de souveraineté.
Nous n’abordons pas ici la nécessaire question du décalage rapide et croissant entre ces technologies et les corpus legislatifs qui assurent la nécessaire protection de la vie privée. Un tel décalage constitue en effet une formidable opportunité d’envisager une réforme qui permette l’exercice effectif du droit d’accès et la mise en place du droit à l’oubli, qui méritera une tribune à part entière.

Les Big Data sont également au coeur de services crowdsourcés (c’est à dire co-construits avec un grand nombre d’utilisateurs dont l’usage même fournit la donnée) comme l’israélien Waze (système de navigation dans lequel les cartes, les POI, les incidents et les trajets optimaux sont générés par les utilisateurs eux-mêmes) ou le français Sensorly, qui constitue et rafraîchit en temps réel des cartes de couverture radio GSM et WiFi à partir des smartphones de sa communauté d’utilisateurs.
Mais bien avant que les utilisateurs, éduqués par les usages de réseaux sociaux, se mettent à contribuer volontairement, ils étaient déjà producteurs passifs de données permettant par exemple d’optimiser le prix des pas de porte dans les centres commerciaux, grâce aux données de signalisations anonymes mais uniques émises par tout mobile dès lors qu’il est allumé.

Enfin, parmi les outils d’analyse de ces données particulièrement novateurs figurent les graphes, qui permettent de cartographier les interactions entre acteurs d’un réseau. Ils permettent de modéliser les dynamiques des petits groupes et sont générés en temps réel et de façon automatisée, pour le ciblage de la publicité, mais on peut aussi les agréger pour détecter des tendances, des mouvements d’opinion, des usages émergents.

L’approche « analytics » peut également remettre en cause en profondeur la conception même des produits et services, en incorporant dès la phase de prototypage l’ajout de points de mesure et l’exploitation des données d’usage en boucle courte (funnels, A/B testing, …), à l’instar de la transformation en cours dans le monde de la relation client avec le passage du CRM (Customer Relationship Management) au CLM (Closed Loop Marketing). De nouvelles méthodologies de développement voient le jour, très différentes de celles pratiquées par la génération précédente, et qui supposeront un effort important de formation initiale et continue.

Toutes ces nouvelles technologies définissent de nouveaux profils de compétences, notamment de Data Scientist, profils très rares car il n’existe pas encore de formations académiques pour répondre à cette demande. Ces profils sont complexes car ils ne font pas uniquement appel aux solides compétences mathématiques et abstraites dont regorge notre pays [2], mais impliquent également une capacité à extraire du sens et à rendre les données intelligibles ou tout du moins visualisables. La part laissée à l’expérimentation dans ce domaine est fondamentale, et nécessite d’avoir accès à des corpus de données considérables

Pour les Etats-Unis, McKinsey prévoit un déficit de 140 000 à 190 000 spécialistes en analyse de données d’ici à 2018. Constituer ce vivier de compétences est un processus long et difficile, où se jouera sans doute une partie de la compétition de demain. La même problématique se pose aux pays européens et à la France.

La presse généraliste commence à percevoir l’ampleur des enjeux autour du « Big Data », qualifié par certains de « pétrole du XXIè siècle » et de plus en plus associé au « Big Business ». On découvre qu’il existe en France plusieurs spécialistes du sujet, disposant pour certains d’une avance considérable dans le domaine, et dont la compétence commence à attirer l’intérêt, comme par exemple MFGLabs ou HyperCube récemment acquis par le cabinet BearingPoint.

C’est dans ce contexte que le Gouvernement a annoncé en mars, dans le cadre du Programme d’Investissements d’Avenir, le lancement d’un Appel à Projets sur la thématique du Big Data doté de 25 M€…

… à suivre !


[1] Et de plus en plus, professionnels également : la tendance d’équipement et donc d’usages s’est en effet inversée en une génération et désormais, la génération Y rejoint le monde de l’entreprise en étant souvent déjà (et mieux) équipée, c’est la tendance récente du « BYOD » (Bring Your Own Device)

[2] En nombre de médailles Fields rapporté à la population, la France est de très loin en tête. Et la domination française ne faiblit pas : depuis 2002, quatre médailles Fields sur les 10 décernées sont françaises (aucune pour les Etats-Unis). En 1911, le plus grand mathématicien vivant était français (Henri Poincaré); en 2011, le plus grand mathématicien vivant est français (Alain Connes)

Une brève histoire d’interfaces – Entretiens Telecom Finaki

J’ai donné Vendredi dernier une conférence devant les 160 participants des Entretiens Telecom organisés par Finaki aux Arcs 1800.

En voici les slides avec en insert l’intégrale des vidéos dont un extrait avait été projeté.

La présentation a été projetée à partir d’un iPhone 4S à l’aide d’un câble « connecteur dock VGA » et afin de conserver ma liberté d’arpenter l’estrade, était pilotée en Bluetooth à partir de l’application Keynote Remote sur mon iPad2(*), ce qui me permettait à la fois de dérouler les slides mais également d’avoir à portée d’oeil mes notes d’intervenant.

(mise à jour) – Une version PechaKucha de cette présentation a été donnée le 15 Juin 2012 au Festival Futur en Seine au 104 à Paris.

*: Keynote Remote peut en effet, depuis un appareil iOS, piloter une présentation Keynote située sur un Mac ou un autre appareil iOS. Dans ce dernier cas il suffit d’activer Bluetooth sur les deux iDevices.

Group YASSP, French Alps

P118

Shot in late afternoon with an iPhone4S in HDR mode, using a b&w « Ansel Adams » effect thanks to (now defunct) Path App. This one is the first attempt using a group: actually, my 2 boys and several friends of theirs.

Cameraphones morphed into Smartphones in the mid 2000s. It took a few more years before video calling services such as Apple’s FaceTime added a front camera.

Soon, this additional, low resolution piece of optics would be used for a much more « Warholic » purpose than saying hello to GrandPa : the selfie addiction was born.

A planetary, compulsory, maslowic exhibition need of oneself took over the planet and created a (chinese) new industry : the selfie stick.

The « me on the picture with » replaced the autograph and added the « smile different » module to the media training skillset catalog.

This posed an interesting challenge to those who wanted to show their image processing capabilities while still using the back camera and keeping their ego at acceptable levels so that fools could enjoy the moon without being distracted by the finger.

Shooting an interesting shadow of yourself mostly happens on difficult light situations, where imsense’s eye-fidelity magic could reveal itself as it was all about « relighting » especially in dark areas of photographs.

I started Yassps as a sales and marketing tool (selling eye-fidelity , not myself, which is another reason for taking my shadow), and realised one day that such collection of photographs could be framed as derivative work.

This is how « Yet Another Self Shadow Portrait » was born, and became a photo category by itself : a selection is available on Burbanx, thanks to Fabien Baunay.

An extended YASSP gallery was available on (now defunct) ZangZing service.

Now you can follow the #yassp hashtag on Instagram.

A Magazine is an iPad that does not work

Amazing video evidencing how Operating Systems and User Experiences can affect our behavior very early in the process. And a tribute to Steve Jobs.

From the author of this video

« Technology codes our minds, changes our OS. Apple products have done this extensively. The video shows how magazines are now useless and impossible to understand, for digital natives. It shows real life clip of a 1-year old, growing among touch screens and print. And how the latter becomes irrelevant. Medium is message. Humble tribute to Steve Jobs, by the most important person : a baby.« 

Changement d’adresse(s) – mise a jour des emails corporate chez Orange France Telecom

Comme l’a récemment souligné Sébastien Crozier dans un post « à charge », le plan d’adressage email corporate de Orange (France Telécom) change une deuxième fois en 5 ans:

@francetelecom.com / @orange-ftgroup.com / @orange.com

Indépendamment du débat sur le coût et les conséquences de ce changement pour l’opérateur, cette affaire va conduire de nombreux interlocuteurs d’Orange à (re)mettre à jour leurs carnets d’adresse.

Plusieurs centaines pour être précis dans mon cas, d’où le recours à AppleScript pour automatiser la mise à jour du domaine dans les adresses email. L’opération s’est effectuée sans encombre et je vais à nouveau pouvoir voir les photos de ceux qui m’écrivent dans mail.app !

Ci-joint le script permettant de faire la manipulation, n’hésitez pas à l’éditer si vous voulez conserver les « anciennes adresses », ni à vous en servir pour d’autres manipulations sur les emails de vos contacts. Inutile de rappeler qu’un backup de son Carnet d’Adresses est recommandé avant de lancer le script.

Il suffit de copier / coller le texte ci-dessous dans l’éditeur AppleScript et de le compiler :

<– couper ci-dessous –>

— Core program written in 2006-2007
— Updated Sept 2011 for @orange-ftgroup.com > @orange.com migration
— Works on a contact selection : test with one or two before running over all your address book database
— Thanks to Ben Waldie for helping me debug this — http://www.automatedworkflows.com/
— © Philippe Dewost 2011 // http://blog.dewost.com

set changeCount to 0
set errorCount to 0

display dialog « Warning: This script is designed to modify data! Be sure to back up your Address Book database first! » & return & return & « Do you still want to continue? »

try
doReplace(changeCount, errorCount)
on error theError
set archivedChangeCount to changeCount
display dialog « Main Dialog :  » & errorCount &  » error(s) happened. Had updated  » & archivedChangeCount &  » contacts so far. Error was  » & theError &  » … »
doReplace(archivedChangeCount, errorCount)
end try

on doReplace(changeCount, errorCount)
try
tell application « Address Book »
activate
repeat with aPerson in (get selection)
repeat with anEmail in (emails of aPerson)
set textOfEmail to (value of anEmail)
set email_id to id of anEmail
set email_label to label of anEmail
if textOfEmail contains « @orange-ftgroup.com » then

— update email
set newTextOfEmail to my searchReplace(textOfEmail, « @orange-ftgroup.com », « @orange.com »)
set value of anEmail to newTextOfEmail
set label of anEmail to « Work »

— keep soon deprecated address with « other » label
— Uncomment following lines to keep the « old » email with an « other » label
— try
— Corrected by Ben Waldie / AppleScript Guru
— set old_email to make new email at end of emails of aPerson with properties {label: »Other », value:textOfEmail}
— on error theError
— display dialog « Error adding email:  » & theError
— exit repeat
— end try

— Uncomment following line if instead you want to delete the email
— delete (emails of aPerson whose id is email_id)

set changeCount to (changeCount + 1)
end if
end repeat
end repeat
save — applies changes to the addressbook database once done
end tell
display dialog « Finished !  » & errorCount &  » error(s) happened. Have updated  » & changeCount &  » contacts. »
on error theError
set errorCount to (errorCount + 1)
set archivedChangeCount to changeCount
— display dialog « Loop Dialog : Error# » & errorCount &  » happened. Had updated  » & archivedChangeCount &  » contacts so far. Error was  » & theError &  » … »
doReplace(archivedChangeCount, errorCount)
end try
end doReplace

on searchReplace(origStr, searchStr, replaceStr)
set old_delim to AppleScript’s text item delimiters
set AppleScript’s text item delimiters to searchStr
set origStr to text items of origStr
set AppleScript’s text item delimiters to replaceStr
set origStr to origStr as string
set AppleScript’s text item delimiters to old_delim
return origStr

end searchReplace

<– couper ci-dessus –>

Ukibi aurait eu du bon