fabernovel loader

Dec 6, 2017 | 5 min de lecture

Tendances

#6 Data

Julien Breitfeld

Data Architecture Director


FABERNOVEL INNOVATE
C'est bientôt [faber] Noël ! En attendant, nous vous révélerons chaque jour un mot qui a fait 2017, décrypté par notre Data Architecture Director Julien Breitfeld.

Pour FABERNOVEL INNOVATE, notre Data Architecture Director Julien Breitfeld revient sur les grandes thématiques de l’année, qui ont alimenté nos discussions Slack et engendré nos plus beaux débats… 

La masse de données produites et archivées à l’heure actuelle dépasse l’entendement.

Par donnée, on entend les données produites par les systèmes et les usages des individus, mais tout est données ; les contenus audiovisuels sont des données : contenus per se, metadata, données de consommation – comme Youtube où sont désormais consommées 1 milliard d’heures de videos par jour ou Facebook qui enregistre les connexions quotidiennes de 1,23 milliards d’individus. Les articles de journaux sont des données : les phrases qui les composent, les mots eux-mêmes, leur signification sont des données. Les personnes citées sont des données, les lieux, environnements, écosystèmes sont des données. Tout est donnée. Ce que l’on nomme information est une donnée qui fait sens pour un être humain.

La révolution internet a permis d’intégrer ces informations dans des bases de données permettant de les lier. Nous sommes passés du volumen (rouleau semblable à un contenu audiovisuel, au sens de la linéarité et dépourvu d’index), au codex (qui permet les marque-pages), puis au livre (avec table des matières) pour finir au Memex rêvé par Vanevar Bush. Et son implémentation par Tim Berners Lee n’a qu’un seul but : « Organiser toute l’information du monde ». Consciemment ou pas, l’Homme produit de la donnée et doit y mettre de l’ordre.

Ces bases permettent également un traitement selon l’imagination humaine, ce que l’on appelait il y a peu la recherche. La constitution de gigantesques bases de données à l’échelle de la planète a permis de dégager des tendances (que l’on peut voir dans les trends Google : https://trends.google.com), et fait le bonheur des plateformes et de l’IA, qui peuvent s’appuyer sur des corpus gigantesques enrichis sans cesse par l’effet réseau. Les IA créent de l’information, dans la mesure où elles vont chercher du sens (des patterns) dans de la donnée a priori hétérogène.

C’est ainsi que nous entrons dans l’ère de la simulation, après avoir vécu celle de l’expérimentation (cette ère a débuté avec le projet Manhattan). Les modèles de données, autrefois expérimentaux et/ou confinés à des petits ensembles statistiques, sont désormais assez massifs pour s’abstraire des taux d’erreurs liés à la faiblesse des échantillons. L’analyse prédictive se massifie – même si elle n’est pas nouvelle. Le mathématicien Thalès fonda sa réputation sur sa « magie » à prédire l’avenir en lisant dans les astres. Fin observateur du ciel, des nuages, et des vents, il sut prévoir une abondante récolte d’olives après des années de sécheresse et de pénurie. Aussi paya-t-il et réserva-t-il d’avance l’usage de tous les pressoirs à huile des environs pour en avoir le monopole au moment de la récolte. Cette opération commerciale réussit au-delà de ses prévisions. Il était régulièrement consulté en tant qu’ « oracle », et fut également appelé « astrologue » – et ce jusque dans les jeux vidéo.


Figure 1: Predictive World, site lancé pour appuyer le lancement du jeu WatchDogs2

Quantifier puis qualifier est le rêve de tout sociologue, historien, chercheur en sciences du comportement, statisticien, opérateur de systèmes. Il permet d’optimiser les processus, les flux ; il permet d’augmenter les rendements, de trouver les failles, d’éliminer les biais ; il permet de trouver du sens. Lorsque la gouvernance a remplacé le gouvernement (voir Alain Supiot, « La gouvernance par les nombres », cours au Collège de France 2012-2014), les KPI tiennent lieu de gouvernail et l’algorithmie de méthode de gestion.

Figure 2: carte de e-identité numérique de l’Etat estonien, similaire à une CID mais non liée à un territoire physique


Cette fusion d’éléments qualifiants trouve sa source à la fois dans la production de données individuelles, mais également dans la numérisation et la mise à disposition universelle de bases autrefois localisées et limitées à leur support papier. Dans le monde de la data, le principal nœud du système à qualifier est l’individu. On voit simultanément et sur des périmètres différents la constitution de bases de données visant à croiser une multitude d’autres, afin d’adresser via un ID unique une personne : ainsi, le fichier TES, l’identité bancaire IBAN remplacée par le numéro de mobile prôné par l’Union Européenne, les comptes de réseaux sociaux demandés à la douane US, l’e-identité fournie par l’Etat Estonien…

Figure 3: Filae, service web de généalogie basé sur la numérisation des registres d’état civil français

Cette unification, et la qualification d’une information/contenu en une données pose des problèmes au corps social, puisqu’elle engendre une mémoire et une accessibilité permanente. Et l’on voit surgir un « droit à l’oubli », nouveau droit non écrit ciblant spécifiquement les moteurs de recherche. Or, ces derniers ne font qu’indexer de l’information produite et archivée par des systèmes légitimes (media, documents administratifs, état civil, jugements…). L’accessibilité, comme la date de péremption de l’information, autrefois subséquente au format du diffuseur et au statut du demandeur (agent administratif, étudiant, chercheur…) devient un problème.

Rendre une propriété de la donnée à son producteur est l’objet d’un règlement européen, le RGPD, qui va s’appliquer à tous les opérateurs à partir de 2018. Ce règlement introduit le droit à l’oubli, le droit à la portabilité des données, la limitation du traitement ou du “profilage”. Ce règlement, très attendu par les citoyens, pave également l’enfer de bonnes intentions : une personne qui supprime son compte facebook entraine mécaniquement la suppression de ses conversations antérieures. Ainsi, une conversation archivée sur les serveurs de facebook devient un soliloque. On oublie trop souvent que la mémoire est collective…

D’autres problèmes surgissent, puisque la codification en bits rend le traitement de l’information beaucoup plus simple, mais nie la qualité humaine du jugement. Les données associées à des individus sont, dans la vie codifiée et hiérarchisée de la société, des statuts et des droits. Les systèmes informatiques qui régissent désormais la donnée doivent la traiter selon des algorithmes d’où le jugement est exclu. Ces systèmes sont identifiés comme faisant partie de l’espace public, tout en étant régis par des lois (les CGU) de droit privé. Qui détient la donnée, qui l’organise, qui la diffuse et quelle donnée a le droit d’être diffusée ? Quelle foi accorder au traitement de l’information par des machines, alors que la confiance dans celle processée par l’individu est remise en question par le phénomène des fake news ?  C’est tout le débat actuel autour de la régulation des algorithmes, du droit à l’expression, du fichage tant public que privé, dans un monde numérique qui s’affranchit des frontières.

Dans le monde de l’accès, à l’heure où l’individu est qualifié par sa donnée intrinsèque comme par celle qu’il produit, le débat est vif et ouvert.

Vous souhaitez être avertis tous les vendredis de décembre des mots de la semaine ?

Laissez-nous vos coordonnées.
Cet article appartient à une enquête
logo business unit

FABERNOVEL INNOVATE

FABERNOVEL INNOVATE explore et construit le futur de vos industries. À la vitesse des startups.

à lire