Qu’est-ce que le Big Data ?

Le terme Big Data désigne l’ensemble des méthodes qui permettent d’analyser et d’extraire automatiquement des informations à partir de données trop massives ou complexes pour être traitées par les outils classiques de data processing.
Définition Big Data
Sommaire

Une explosion de données

Le volume des données stockées depuis l’avènement du numérique ne cesse de s’accroître : 90 % des données récoltées depuis le début de l’humanité auraient été produites durant ces deux dernières années.

 

 

Big Data : une définition

Littéralement, le terme Big Data signifie grande quantité de données, mégadonnées ou encore données massives.

 

Le Big Data désigne ainsi un ensemble de données numériques volumineuses qu’aucun outil traditionnel ou classique de gestion de base de données ou de gestion de l’information ne peut traiter de manière efficace.

 

Par extension, le terme Big Data désigne aussi les technologies permettant de traiter ces données. On fait donc du Big Data pour traiter les Big Data, ce qui explique en partie la grande confusion que ce terme génère!

 

La source des données

Il s’agit d’informations provenant de plusieurs sources : les messages que nous échangeons, les vidéos publiées, les signaux GPS, sons, textes, images des transactions de commerce électronique, des échanges sur les réseaux sociaux, des données transmises par les objets connectés et biens d’autres.

 

Selon IBM, nous produisons actuellement environ 2,5 trillions d’octets de données chaque jour à travers l’utilisation des nouvelles technologies à des fins personnelles ou professionnelles.

 

Ces données ont été baptisées Big Data ou données massives au vu du volume qui ne cesse de croître. Les géants du numérique comme Google et Facebook ont été les premiers à développer les technologies pour traiter ces données.

 

Le Big Data est un outil complexe et polymorphe, raison pour laquelle  il n’existe pas vraiment de définition précise ou universelle. Sa définition varie en fonction des communautés qui s’y intéressent en tant qu’usager ou fournisseur de services.

 

60 secondes pour comprendre le big data :

 

 

Voir aussi cette vidéo qui en donne une définition très abordable :

 

 

Les caractéristiques du Big Data

La meilleure approche pour définir le terme anglais Big Data consiste à le caractériser. D’après la définition de Gartner, les caractéristiques des Big Data sont décomposées en 3 critères simples (les 3V) : Variété, Vélocité et Volume.

 

 

Le volume de données

La considération du volume de données est une caractéristique essentielle pour définir le Big Data. Selon Wikipédia, “les données numériques créées dans le monde seraient passées de 1,2 zettaoctet par an en 2010 à 1,8 zettaoctet en 2011, puis 2,8 zettaoctets en 2012 et s’élèveront à 47 zettaoctets en 2020, et 2 142 zettaoctets en 2035. À titre d’exemple, Twitter générait en janvier 2013, 7 téraoctets de données chaque jour et Facebook 10 téraoctets. En 2014, Facebook Hive générait 4 000 To de données par jour.”

 

La vélocité ou la vitesse de génération des données

La vélocité fait référence au fait que les données numériques sont produites en quasi temps réel : il s’écoule quelques millièmes de secondes entre votre Like sur Facebook et le stockage de cette information dans un serveur, alors que les bases de données traditionnelles sont mises à jour tous les mois ou toutes les semaines.

 

Cette grande vitesse de génération des données implique également une vitesse accrue de traitement : les nouvelles informations doivent être exploitées sous quelques secondes lorsqu’on déclenche une promotion individualisée sur un site e-commerce, sous quelques heures lorsqu’on identifie un risque de panne ou sous quelques jours lorsqu’on gère des stocks. Dans tous les cas, ce besoin d’analyse rapide et répétée en continu des données conduit à utiliser des méthodes d’intelligence artificielle.

 

La variété des données

La variété des données renvoie à des sources hétérogènes et à la nature des données. Nous détaillons ces différents types de données dans la partie suivante.

 

Avant, les bases de données et les feuilles de calcul représentaient les sources uniques de données prises en considération par la majorité des applications. Mais avec le numérique, les données ont des formes multiples : courriers, photos, vidéos, appareils de surveillance, PDF, audio, etc. Or il est difficile de stocker, extraire et analyser des données lorsqu’elles sont de sources différentes. La variété des données est un des challenges du big data.

 

 

Quels sont les types de Big Data ?

Le Big Data est divisé en trois types de données qui sont stockées et exploitées de manières différentes.

 

 

Les données structurées

Les données structurées sont les données auxquelles on pense le plus spontanément. Facilement traitées par les machines, ces données englobent des informations déjà gérées par l’organisation dans des bases de données et des feuilles de calculs stockées dans des bases de données SQL, des data lakes et des data warehouses. En bref, toutes les données qui ont été prédéfinies et formatées selon une structure précise  sont appelées données « structurées ».

 

Il s’agit par exemple des données des systèmes financiers, des données que vous entrez dans des formulaires, mais aussi des données de votre montre connectée ou de vos logs d’ordinateur. Elles représentent environ 20% des données du Big Data.

 

Les données non structurées

Elles représentent des informations non organisées n’ayant pas de format prédéterminé, car il peut s’agir de n’importe quoi. À titre d’exemple, les rapports, les fichiers audio, les images, les fichiers vidéo, les fichiers texte, les commentaires et opinions sur les réseaux sociaux, les emails, etc. Elles représentent près de 80% des données du big data.

 

Les données semi-structurées

Elles sont un intermédiaire entre données structurées et non structurées. Il s’agit des données qui n’ont pas été organisées en référentiel spécialisé à la façon d’une base de données, mais qui comportent cependant des informations associées, qui les rendent plus faciles à traiter que des données brutes.

 

Par exemple, le stockage de vos mails constitue une donnée semi-structurée : des champs textes (le contenu du mail) et de la donnée standardisée associée (email du destinataire, de l’émetteur, heure d’envoi etc.).

 

 

Comment fonctionne le Big Data ?

Le terme Big Data permet de relever un défi immense en technologie : pouvoir stocker une immense quantité de données venant de sources différentes. Ceci sur un « grand  disque dur », facilement accessible depuis n’importe quel point de la planète. Ces données sont stockées en un lieu sûr et récupérables à tout moment.

 

Pour y arriver, on sectionne les fichiers en plusieurs fragments appelés « chunks ». Puis on répartit ces fragments sur plusieurs ordinateurs, et il existe plusieurs manières de les reconstituer. Dans le cas où une panne survient, une machine prendra le relais en empruntant un autre chemin. De cette façon, les données seront constamment disponibles.

 

La duplication de masse des données est l’un des facteurs clés de l’architecture du Big Data. Le cloud computing, les supercalculateurs hybrides et les systèmes de fichiers figurent parmi les principaux modèles de stockage actuellement disponibles.

 

 

 

Les enjeux des données

Les entreprises ont des degrés de maturité très différents sur la compréhension des enjeux et des potentialités de l’exploitation de leurs données, en particulier des données non structurées.

 

Assurer l’intégrité de ces données est une première étape afin de s’assurer qu’elles restent une source fiable, grâce à une bonne technique de gestion des données et à la gouvernance associée. Ce n’est qu’à cette condition que les méthodes d’analyse prédictive et d’intelligence artificielle peuvent pleinement porter leurs fruits et permettre un service client amélioré, une meilleure efficacité opérationnelle, et de meilleures prises de décision.

 

 

Crédit image à la Une :  Jakub Jezovic – Dribble

Sommaire

Voir aussi

Voir aussi

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *