Le Big Data

Le Big Data c’est quoi ? :

Cela fait quelques années maintenant qu’on entend parler du Big Data sans savoir concrètement ce que c’est réellement.

Depuis les 10 dernières années les données produites par l’homme sont de plus en plus importantes et leurs évolutions croissantes, on récolte chaque jour près de 2,5 trillions d’octets chaque jour. Maintenant presque tout est capable de produire des données notre corps, une voiture, une forêt, notre micro-ondes. En 2015 ont estimé à 15 milliards le nombre d’appareil connecté à Internet et en 2020 à 50 milliards d’appareils connectés. On estime également le nombre total de données récoltées d’ici 2020 à 40 Zettaoctets soit 40 000 milliards d’octets ( 40 000 000 000 000 000 000 000 ) , nous avons traité autant de données en 2 ans que dans les 3 derniers millénaires devant cette explosion de données numériques il est primordial de récolter et analysé ces données et le Big Data en est la réponse.

Le Big Data n’a pas de définition claire et précise il représente tout simplement cette explosion de données dépassant de nouveaux ordres de grandeur concernant la récolte, le stockage et l’analyse de données. Il représente cette masse donnée qui transite sur internet (photo, vidéo, données GPS, etc.…). Il se défini donc en 3 axes majeurs la production de données, la récolte de ces données puis l’analyse de celle-ci grâce à des algorithmes capable d’analyser ces grands ensembles. L’arrivé du Big Data est décrit comme un changement majeur dans notre société et pour certains comme une nouvelle révolution industrielle.

A l’origine de ce Big Data les grandes entreprises du Web, Google, Amazon, Facebook et Apple, les GAFA. Il récolte des millions de données chaque jour créant ainsi d’énorme base de données.

 

Comment ça marche ? :

D’abord le Big Data est en grande partie possible grâce au développement des nouvelles technologies comme l’intelligence artificielle, l’amélioration des espaces de stockage en termes d’espaces avec l’apparitions des disques SSD ou la miniaturisation des disques durs, le stockage prend beaucoup moins de place qu’avant il est donc plus simple de stocker la masse de données récolté chaque jour. Il doit également son développement à l’évolution des ordinateurs plus rapides et plus puissant pouvant faire tourner des IA, logiciels lourds, etc… mais aussi simplement grâce à l’augmentation du nombre de données créées chaque jours et l’augmentation du nombre d’appareils qui en crée.

La récolte de données :

La récolte de données se faits en grande partie par les GAFA comme dit précédemment, lorsqu’un utilisateur navigue sur internet, que ce soit sur Facebook, Google ou Amazon, il laisse des traces de ce qu’ils faits, recherches, remplissage de formulaire, etc… ce sont les fameux cookies. Des fichiers qui contiennent vos préférences, des informations personnelles et ces fichiers peuvent être utilisée par plusieurs autres sites afin de vous proposer de la publicité ciblée. La récolte de données ce fait également par le biais d’autres applications ou votre opérateur téléphoniques, on peut enregistrer vos déplacements afin d’étudier les lieux que vous fréquenter le plus etc…

Les données récoltées peuvent être des données structurées comme lorsqu’on remplit un formulaire à la création d’un compte par exemple, il s’agit de données comme le nom, l’âge, ou l’adresse de la personne, et vont être plus facile à étudier et classé par les algorithmes. Puis il y a les données non-structurée comme les photos, les vidéos, les messages etc… elles ne sont pas organisée en base de données

Aujourd’hui la récolte de données va plus loin car on dispose de plus en plus d’appareils pouvant collecter des données, comme par exemple les bracelets qui mesure l’activité physique ou le rythme cardiaque, les capteurs biométriques comme les capteurs d’empreinte ou faciale, les satellites qui mesure les données météorologiques de la Terre par exemple.

L’analyse de ces données :

 L’analyse des données et faites par des algorithmes créés par des data-scientist et répond à la réglé des 3V le premier étant le Volume qui concerne une masse de données sans cesse croissante et qu’il faut traiter le plus rapidement possible, ensuite la Vélocité/Vitesse il s’agit du temps de traitement qui doit être le plus proche possible du temps réel c’est même un véritable enjeux. Et enfin la Variété, les données n’ont pas toutes le même format et ne sont pas forcément structurées. Il faut donc réussir à mettre en place un système qui va pouvoir lier tous ces éléments. On parle aussi des 5V du Big Data on rajoute alors la vairiable Véracité ou fiabilité des données quyi peut être menacée par l’activité de robots et faux profils et la variable Valeur qui permet de ce concentrer sur les données ayant une réel valeurs.

 

Ces structures et le développement des algorithmes ont permis une des révolutions du Big data. Dans le passé l’homme dans sa quête de donné du sens à la réalité ne pouvais qu’étudier des petites quantités de données puis devais extrapoler à tout en espérant que le tout corresponde à l’échantillon. On peut aujourd’hui se fier sur la taille et ne pas se concentrer seulement sur la qualité des données.

De nombreux acteurs du marché du Big Data et notamment en stockage comme Oracle, IBM… propose des services adaptés au Big Data comme les lacs de données qui permette de stockée des données de tous types qui ne sont pas forcements structurés

En quoi ça va changer nos vies ?

Le Big Data c’est la collecte de données et l’analyse de ces dernières mais concrètement à quoi ça sert et en quoi est-ce un changement si important ? La collecte de toutes ces données a pour but d’être analyser par des algorithmes qui ont pour but principal de dégager des données statistiques de ces dernières et voir des tendances pour prévoir des événements, des choix, etc… Et ces prévisions peuvent être appliquées dans presque tous les domaines et ces prévisions sont de plus en plus précises car on a affaire à d’énorme base de données.

Médecine :

Le Big Data aura une importance cruciale dans les années à venir dans la médecine, il est une des grandes révolutions dans ce domaine. Certains algorithmes sont capables de prévoir des épidémies comme la grippe en analysant les réseaux sociaux, les recherches Google, messages etc… Il a été prouvé qu’il existe une corrélation entre les recherches liées à la grippe et les début de l’épidémie, lorsqu’une personne commence à ressentir des symptômes, elle va être poussé à chercher sur Internet qu’elles types de maladies elle a contractée et lorsque qu’une grande quantité de personnes vont effectuer le même types de recherches au même endroits il va être possible de prédire une épidémie et du coup anticipé l’importance de cette dernières pour prédire les coûts et la réaction face à cette épidémie, cette méthodes a permis d’anticiper les épidémies parfois deux semaines avant les centres de recherches. Cependant cette méthode n’est pas sans faille car après certaines épidémies, il se peut que l’importance que va prendre cette dernière soit relayer à la télé et que cela fasse augmenter le nombre de recherches liées à la maladie et donc faussé les résultats.

Toujours dans le domaine de la médecine le Big Data peut permettre également de prédire la contraction ou le début de certaines maladies chez un patient. Grâce à la grande quantité de capteurs, cardiaques, pression artérielles, quantité de sang, etc… Il est possible en récoltant ces données et en les analysant part un algorithme de voir d’infimes changement dans le corps qui montre le début de maladies et donc de réagir au mieux face à ces dernières.

Environnement :

Le Big Data pourra également révolutionner notre approche liée à l’environnement et favoriser notre gestion de celui-ci. On dispose aujourd’hui de nombreuses données nous permettant de mieux comprendre le monde dans lequel nous vivons, grâce aux satellites notamment on peut suivre en temps réel la fonte des glaces, le déclin de certaines forêts, le dessèchement de certaines zones, etc… Grâce a toutes ces données des algorithmes peuvent nous permettre à gérer au mieux des forêts par exemple. Ces données peuvent également servir à anticiper des catastrophes naturelles en observant des micros-changements dans l’atmosphère, de la température dans une certains zones, en analysant la vitesse des vents, etc… la prévision des catastrophes naturelles va permettre encore une fois une meilleure gestion des risques et estimer les dégâts et le coût de leurs réparations mais aussi de voir qu’elle zone est en danger pour évacuer les populations et ainsi gagner des précieuses minutes lors d’évènements de ce types. On pourrait aller encore plus loin dans la prévision de la réaction à la suite d’une catastrophe en analysant les messages ou les tweets envoyées à la suite de la catastrophe pour analyser les lieux où il y a eu le plus de dégâts savoir si un pont s’est écroulé par exemple pour faciliter l’intervention des pompiers. A une échelle plus petite on pourra améliorer le système de gestion des déchets d’une ville en observant une tendance au niveau du remplissage des déchets et alors optimiser le traitement de ces déchets. On peut imaginer aussi quels Big Data pourrait aider des agriculteurs à mieux gérer leurs plantations en utilisant des algorithmes qui s’occuperait de mettre en place de stratégies agricole plus précise, plus efficaces.

Criminalités :

Au niveau de la criminalité il existe des algorithmes qui permette de « prédire » des zones à risques et de plus ou moins prédire des crimes en se basant sur des données statistiques et ainsi de répartir au mieux les patrouilles de police. Ce genre d’algorithme a déjà était mis en place dans des villes à fort taux de criminalités comme dans la ville de Memphis au Etats-Unis qui s’est associés avec IBM pour créer le projet CRUSH (Criminal Reduction Utilising Statistical History), cet algorithme examine de nombreuses données comme l’heure, la date, les lieux, le mode opératoire pour modéliser le comportement de délinquants pour cela il s’aide de nombreux outils comme le dossier de tous les délits commit, grâce à l’analyse des patrouilles des policiers mais aussi de camera connectées. A Memphis l’algorithme est testé depuis 2008 et il a déjà permis de réduire la criminalité de plus de 30%. Un algorithme a permis de retrouver les suspects de l’attentat du marathon de Boston en 2013 en analysant des milliers de vidéo provenant des différentes caméras de surveillance de la ville, il a repéré deux personnes courant dans le sens inverse de la foule ce qui est un acte suspect. Sans cette algorithme les forces de l’ordre aurait passé beaucoup plus de temps à identifier des suspects au vue de la quantité d’informations qu’ils avaient à traiter. On peut également tirer des informations très utiles venant de ces algorithmes par exemple grâce à l’analyse des données relatives au crimes il en ai ressorti que la criminalité est plus forte dans les lieux qui ne sont pas éclairés. Tous ces informations vont permettre dans le futur de créer des villes plus sûres.

Commerce :

Une des applications du Big Data la plus courante aujourd’hui ce fait dans le commerce grâce au informations récoltés en ligne sur nos comportements d’achats pour permettre aux entreprises de faire de la publicité ciblée plus pertinentes. Il est désormais possible pour une entreprises grâce à nos comportements en lignes de mieux nous connaître et nous comprendre, cela permet d’améliorer les services clients notamment ou écore de nous envoyer des offres lorsque l’on a proximité d’une boutique en analysant nos trajets. Mais cela permet aussi de prévoir dans une certaine mesure d’anticiper la demande de l’entreprises et de ce fait prévoir les ventes et donc optimiser la fabrication, il y aura donc une gestion des stock plus cohérentes. Le Big Data peut permettre à des entreprises à se positionner sur des marchés qui n’existe pas encore, en analysant tout ce qui est réseaux sociaux, message, recherches, etc… Si de nombreuses personnes ont un problème qui n’a pas de solution on pourrait imaginer qu’une entreprise en récoltant ces données et en les analysant mette en place une réponse à ce problème. Ou encore pour une entreprise comme Netflix, il est possible grâce aux algorithmes d’observer des tendances ce qui pourrait permettre à Netflix de surfer sur cette tendance en proposant des films et séries en lien avec cette tendance. Au niveau des services clients ou des abonnements on pourrait étudier les comportements de clients susceptibles de partir et de proposer des offres intéressantes pour refidéliser le client.

Vie Quotidienne :

Globalement tous ce que le Big Data va apporter va nous profiter dans la vie quotidienne. D’abord au niveau de notre corps avec la multiplication des différents capteurs intégrer dans nos appareils, montres connectées, bracelet qui mesurent l’activité physiques ou l’activité dans notre sommeil, téléphones équipés de podomètres, etc… Dans le futur on sera de plus en plus capable de comprendre notre corps et la technologie aussi ce qui permettra à nos téléphones par exemple d’agir comme des coachs personnels, on pourra mieux prendre soin de nous, en mangeant mieux et en étant orienté en fonction de nos besoins et en contrôlant mieux notre poids, on aura des régimes plus efficaces. Ensuite il y aura de nombreux éléments extérieurs qui faciliteront, qui fluidifieront la vie, plus besoin de faire nos courses car les supermarchés connaîtront nos habitudes alimentaires. Nos déplacements seront plus faciles aussi, on peut imaginer que les sociétés de transport en commun pourront mieux analyser le nombre d’utilisateurs et ainsi augmenter l’efficacité des transports en commun mais aussi de proposé un suivi en temps réel d’un bus en analysant mieux le trafic, toutes les voitures deviennent de plus en plus intelligentes et ont de plus en plus de capteurs, ce qui pourrait permettre de relier des informations collectées sur la route avec tous les autres usagers, par exemple au niveau des ralentissements que ce soit durée de feux tricolores, nids de poules, accident tous sera partagé ce qui permettra à des algorithmes de devenir de plus en plus précis sur la durée des trajets.

Cependant ce monde de plus en plus connecté soulève de nombreux problèmes, de peurs et d’appréhension qui sont plus ou moins justifiée en y réfléchissant.

Les problèmes du Big Data :

En effet le Big Data est un outil très puissant et comme tout outils puissants il a la capacité de changer le monde que ce soit en bien ou en mal. Le Big Data est une nouvelle technologie nous en sommes qu’au début et il permet déjà énormément de choses, il est maintenant primordial que la société réfléchisse au futur et à l’utilisation de toutes ces données, en ouvrant de nouveaux débats sur les problèmes que peut engendrer le Big Data

Les limites du Big data :

La principale limite du Big Data est physique car il repose principalement sur le stockage de toutes ces données, il est donc nécessaire de développer de plus en plus de serveur mais la récolte de données augmente de façon quasi exponentielle ce qui n’est pas les cas des serveurs de plus les serveurs demandent énormément de ressources que ce soit en maintenance ou en énergie ils ont un impact environnementale énorme car ils ont besoin d’être refroidit constamment. D’après les estimations actuelles, les data centers installés aux États-Unis devraient consommer à eux seuls près de 73 milliards de KWh en 2020. De plus les algorithmes qui traite les données de ces serveurs ont besoin de toujours plus de puissance il est donc crucial de trouver un moyen de réduire l’empreinte écologique des datacenters. Une autre limite existante est la sécurité car toutes ces données doivent être stocké en sécurité et on le sait il n’existe aucun système protégé à 100% il existera toujours des failles pouvant être exploité par des hackers, sauf qu’ils s’agit de données sur des millions voir des milliards de personnes, il peut s’agir de données comme les habitudes de ces personnes, leurs déplacements, leurs génomes, etc… des données qui pourrait intéressé de nombreuses personnes comme des assurances, des personnes mal attentionnées etc… il pourrait donc y avoir une sorte de guerre pour obtenir ces données si précieuse.

Politique :

Le Big Data peut néanmoins entraîner de nombreuse dérive politique et surtout au niveau de l’espionnage. En effet pour beaucoup il n’y qu’un pas entre Big Data et Big Brother, ce sentiment d’espionnage pourtant bien réel depuis les révélations d’Edward Snowden en 2013 sur les programmes d’espionnages de masse de la NSA avec la révélation du programme de surveillance PRISM qui permet à la NSA de surveiller des millions de citoyens sans réel raisons et en toute impunité. Grâce à l’ensemble de ces données et l’évolution de la technologie un état pourrait mettre un système de profilage comme en Chine ou un système de ce genre est déjà en place, le système de crédit sociale. Tous les citoyens chinois se voit attribuer une note, échelonnée entre 350 et 950 points, fondée sur les données dont dispose le gouvernement à propos de leur statut économique et social, ce système repose sur des outils de surveillance globale et de surveillance de masse, et utilise les technologies d'analyse du Big Data. Avec la mise en place de ce genre de profilage il y aurait une perte progressive de notion de démocratie. Au niveau démocratique justement le Big Data peut permettre également quelques dérives car il pourrait servir d’excuse au pays voulant faire passer des lois dans le but de récolter un maximum d’informations sur ses citoyens. Toutes ces lois rendrait quelques chose qui est déjà presque impossible l’anonymat en ligne, il y aurait de plus en plus d’atteinte à la vie privée et donc de droit fondamentaux compromis ce qui pourrait entraîner des révoltes de la part de certaines personnes car il y aurait deux types de personnes ceux qui accepte le Big Data car il offre un certain confort et un niveaux de sécurité supérieur, et ceux qui le voit comme un Big Brother intrusif, une arme à la disposition des états pour contrôler sa population. Il existe un autre problème au niveau des algorithme utilisé par les états car certains sont utilisé au niveau militaire et à la recherche contre le terrorisme comme l’algorithme Skynet qui est utilisé au Pakistan et dans les pays environnants et qui a pour but de repérer des comportements terroristes sur le continent en analysant les recherches en ligne, déplacements, etc… En fonction de l’analyse l’algorithme donne une note qui va définir si la personne est classée comme terroriste ou non, cette personne sera placé sur une « Kill-List » que des drones abattent ensuite, le problème avec ce genre d’algorithme c’est qu’ils ne sont pas fiables à 100% il y a un taux de faux positif qui est de 0,008% pour Skynet par exemple ce qui correspond au Pakistan à environ 15000 personnes accusées à tort !

Abus et influence :

On peut donc facilement imaginer que le futur sera largement orienté par le Big Data car toutes ces données changent le monde peut à peu et le contrôle de ces données va devenir un des objectifs majeurs des prochaines années, le contrôle de ces données permet au GAFA aujourd’hui de devenir aussi voire plus puissantes que des états entiers. Comme tous pouvoir il peut entraîner des abus, certains algorithmes vont être bénéfique au développement de l’humanité mais d’autre peuvent créer de nombreux problèmes, par exemple un algorithme appliqué au cours de la bourse pourrait entraîner les spéculateurs vers des bulles hypothétiques et créer d’autres crises financière majeurs. Les assurances pourraient mettre en place grâce a des capteurs dans des voitures des algorithmes d’analyse du comportement du conducteur pour augmenter ou faire baisser les assurances en créant des profils types. Les banques pourraient créer des algorithmes servant à l’attribution des crédits, par exemple si une personne dans le futur ayant tous un tas de capteurs différents mange un peu trop l’algorithme pourrait prédire un surpoids et donc la contraction potentielle de maladies liées au surpoids et donc cette personne se ferait refuser son crédit sur des critères qui ne sont même pas encore existant.

De plus il y a un problème majeur que tous ces algorithmes pourraient créer, au fur et à mesure on pourrait perdre notre jugement et laisser les algorithmes réfléchir à notre place ou encore ce fier aux algorithmes prédictif, il deviendrait des sortes d’oracle auxquels tout le monde se fie, et pourrait être détourné de leurs fonction pour contrôler et manipuler une population.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *