Le monde de la data

Mis à jour il y a 9 mois

Des les années 70, l’américain Herbert Simon futur prix Nobel d’économie et l’un des précurseurs de l’Intelligence Artificielle, avait mis l’accent sur les processus décisionnels face à une surabondance de source d’information. Dans un monde où règne la data, les usages sont désormais multiples. Ce qui ne doit pas occulter les questions sur les limites du système.

Le règne de la data

Pas une heure sans que l’on soit tenu au courant de l’évolution du coronavirus avec un nombre de cas géolocalisé. Que ce soient via les cours de la bourse en temps réel, les prévisions météo, l’indice des prix de l’immobilier parisien ou bien le nombre de pas réalisés via applewatch, les données font désormais partie du quotidien et son omniprésentes.

L’information omniprésente à l’heure du web

25 ans après la création du World Wide Web Consortium par Sir Tim Berners-Lee, la data règne sans partage, et est devenu une donnée essentielle pour les activités économiques.

Concernant google, le principal moteur de recherche, celui-ci aurait ainsi :

  • 130 00 milliards de pages indexées
  • 20 milliards de sites « crawlés » quotidiennement
  • 6 milliards de requêtes chaque jour

Des technologies plus efficaces grâce au monde de la data

L’évolution de la puissance de calcul et de stockage des données permet une utilisation extensive de la data. Ainsi le premier séquençage du génome humain, achevé en 2003 dans le cadre du « projet Génome humain » aurait durée quinze ans et coûté 2,7 milliards de dollars. Il peut désormais être réalisé en quelques heures pour moins de 1000 dollars. Rejoignant le célèbre postulat de la Loi de Moore, cofondateur d’intel, prédisant que la puissance de calcul de microprocesseurs doublait tous les ans à coût égal.

Le traitement digitalisé de l’information

Ce monde de data est issu d’une digitalisation croissante qui alimente le flux de donnée, à mesure que leur exploitation s’intensifie. Que l’on les nomme « millennials », « digital native », ou « homo numericus », la population semble avoir adopté cette tendance et le retour en arrière semble peu probable.

Les architectures en réseau contribuent à des puissances de calcul inégalé. Donald Trump a ainsi récemment signé un décret afin de doubler les investissements des agences fédérales dans l’IA « intelligence artificielle » avec un budget de 2 milliards de dollars. Selon Kai-Fu Lee, ex dirigeant de Google China, la Chine aurait déjà dépensé 70 milliards de dollars sur le sujet depuis le lancement d’un plan national en 2017….

Un monde de data : des usages multiples

Cette digitalisation a été le support de l’émergence des « GAFAM » et autres « BATX » qui ont fait de la gestion des datas leur cheval de bataille, attaquant frontalement de nombreux acteurs traditionnels (banques, medias, commerçant…)

Analyse prédictive et ciblage

Les applications de ce « datamining » géant sont multiples, un des plus courant étant le ciblage publicitaire. Dans une version exacerbée de « l’économie de l’attention », l’analyse comportementale permet de cibler précisément à qui adresser un message publicitaire personnalisé : « retargetting », profil « look alike », autant d’outils désormais à la portée des marketeurs.  

Version ultime du ciblage, alors que le coronavirus Covid-19 ce transmet au monde entier, la NY Times relayait le fait que la Chine a mis en place des « QR code » personnalisés afin de réguler les déplacements des gens et les mesures éventuelles de quarantaine, sur la base analyse d’un ensemble de données individuelles comportementales et sanitaires…

Dans le même ordre d’idée, la police française – dans un scénario digne du film Minority Report – utilise depuis  2017 le logiciel Predvol permettant d’anticiper les cambriolage. Il ne s’agit cependant a priori pas de données nominatives mais d’analyse statistique permettant d’optimiser le maillage des forces de l’ordre…

Démarche transactionnelle

Les données sont depuis longtemps utilisé dans le domaine de la finance par les « quants » et les algorithmes des traders haute fréquence. La généralisation des datas et des outils et objet numériques a permis l’émergence de la « blockchain », dont l’application la plus célébre est le BitCoin mais dont les champs d’actions peuvent s’étendre à de nombreux type de transactions dans un cadre sécurisé et automatisé en faisant émerger des applications intelligentes (les « smart-contracts »), par exemple un contrat d’assurance dont les primes sont débloquées automatiquement en cas d’une évolution météorologique conforme à un scénario préétabli.

La data un outil essentiel pour le credit et les fintechs

La finance, et plus récemment le secteur des fintechs sont ainsi parmi les premiers utilisateurs de données. Les nouvelles normes « d’open-banking » issues de la directive sur les paiement DSP2, milite d’ailleurs dans le sens d’un plus grand ouverture des données pour permettre l’émergence de nouvelles applications. Utilisant les mêmes données que pour le ciblage « sanitaire », MyBank.cn filiale chinoise d’Alibaba a prêté en quelques années 250 milliards de dollars à des PME via des système algorithmiques, soit plus que toutes les banques françaises réunies…

Même si le crédit reste « 50% de chiffres et 50% d’humain », nous utilisons chez WeShareBonds, en partie une approche statistique dans notre process d’analyse crédit pour le  prêts aux PME. Notamment la cotation Banque de France  – qui estime la capacité statistique d’une société à faire face à ses engagements financiers.

Le monde de la data source de débat a plusieurs facettes

La Commission Européenne a récemment publiée sa stratégie dans le domaine de l’IA, mettant en avant les avantages en terme d’application et la nécessité d’un contrôle : « La stratégie dévoilée ce jour présente une société européenne soutenue par des solutions numériques qui placent les citoyens au premier plan, ouvrent de nouvelles perspectives aux entreprises et encouragent le développement de technologies fiables pour promouvoir une société ouverte et démocratique et une économie dynamique et durable. Le numérique est un élément déterminant pour lutter contre le changement climatique et réussir la transition écologique. La stratégie européenne pour les données et les possibilités d’action pour garantir le développement d’une intelligence artificielle (IA) axée sur le facteur humain, présentées aujourd’hui, constituent les premières étapes vers la réalisation de ces objectifs ». Outre la question de l’équilibre dans l’usage, les modèles fondés sur l’exploitation de donnée peuvent-ils rencontrer certaines limites ?

Un monde de data : une limite technique au système ?

Jérôme Pesenti, un français directeur de l’IA chez Facebook, a récemment livré sa vision sur l’existence d’un mur dans l’exploitation des données. En cause la technique de « deep learning » (ou apprentissage par l’exemple) qui implique un volume de données toujours plus important et une puissance de calcul toujours plus efficace.

Par ailleurs ainsi que le relève la Commission Européenne, l’existence de « boite noires» – difficulté à décrire le processus décisionnel – peut-être un obstacle à la mise en place de certifications, cruciales pour les applications vitales.

On ne peut enfin écarter le coût « écologique » ou énergétique lié aux puissances de calcul nécessaire (même si par ailleurs l’IA peut permettre d’optimiser des choses et de faire des économies)

Biais méthodologique

Le « deep learning » pose la question du traitement des données mais également de la pertinence des données qui sont entrée dans le système. Dépourvue de sens commun, l’IA peut faire des être amenée à faire des erreurs grossières « deepfake » qui peuvent être rédhibitoires dans des domaines tels que la sécurité ou la santé.

Dans le domaine de la finance et du trading les phénomènes de « prophétie autoréalistrice » issues des modèles amplifient les crises et la volatilité. Enfin lorsqu’il est suivi de manière généralisé un modèle peut trouver ses limites du fait d’une concurrence exacerbée : c’est le cas de l’augmentation du coût d’acquisition dans l’e-commerce dans la mesure où tout le monde va rapidement enchérir sur les mêmes profils et les même mots clés.

Les modèles – en l’absence d’interaction humaine- peuvent enfin exclure à tort des opportunités juste car ne rentrant pas dans le cadre du paramétrage, ce qui peut être préjudiciable et réduire le champ des possibles au travers d’une certaine uniformisation, fondée sur un historique existant.

La question déontologique : quel part de liberté ?

S’il est appréciable de recevoir des suggestions de lecture correspondant à ses goûts de la part d’Amazon, l’exploitation de donnée nominatives pose question. En France, la CNIL et la norme européenne RGPD tentent de poser un cadre.

Quelles limites doit-on accepter dans la mise à disposition de ses données pour un bénéfice individuel ou collectif ? Sans compter les risques de piratage. Le débat reste ouvert.

Publication originale le 5 mars 2020, mise à jour le 12 mars 2020

Sujet(s):

Articles recommandés