Que sont les données non structurées ?

Les données non structurées s’opposent aux données structurées qui sont généralement sous forme de tableau où le schéma est clairement défini. Les données non structurées sont quant à elles stockées sans schéma prédéfini.
Définition Données non structurées
Sommaire

Quelle est leur importance ?

Avec l’utilisation croissante et intensive des données, ce type de données est de plus en plus présent car elles permettent de stocker des informations qui pourront être utiles sans en connaître l’utilisation à l’avance. On les retrouve sous une multitude de formats de fichiers. Il est possible de les utiliser dans de nombreux contextes. Elles sont parfois désignées par le terme données qualitatives.

Les données non structurées, c’est quoi ?

Une donnée non structurée est une donnée brute stockée dans son format d’origine. On utilise alors le système du “schema-on-read” ou schéma à la lecture en opposition au “schema-on-write” qui transforme la donnée avant son traitement. Les données non structurées représentent la plupart des données générées sur le Web.

Une question qui revient souvent : quelle est la différence entre données structurées et données non structurées ?

Données structurées textuelles et non textuelles

On trouve d’un côté des données textuelles produites par les documents Word, les courriels, les présentations PowerPoint ou les logiciels de collaboration ou de messagerie instantanée. De l’autre côté, il y a les données non textuelles qui sont issues des fichiers audio MP3, des images JPEG ou des fichiers de vidéo Flash.

Quelles sont les sources de ces données ?

Il y a principalement deux sources de production : l’ordinateur et les humains.

Données produites par la machine

Les satellites

On peut citer en exemple les images satellites dont les données météorologiques. Il en est de même des données récupérées lorsqu’une surveillance par satellite est mise en place, comme c’est le cas avec Google Earth.

Les données scientifiques

Les données scientifiques font aussi partie des données générées par la machine. Sont notamment concernées les images présentant les activités sismiques ainsi que les données atmosphériques et physiques relatives aux hautes énergies.

Les données issues des photos et vidéos

Il y a également les résultats des photographies et vidéos. On peut s’intéresser par exemple aux données que les systèmes de vidéosurveillance ont générées.

Les radars

En outre, les informations des radars sont considérées comme des données non structurées issues de la machine.

Données fournies par les humains

Les textes

L’Humain produit des données non structurées dans divers contextes. C’est le cas des textes internes à l’entreprise, comme ce qui est écrit dans les procédures, les échanges d’email et le contenu des documentations.

Les médias sociaux

Ce type de données provient également des médias sociaux. Il s’agit donc de toutes les données qu’on produit sur les réseaux sociaux, tels que les likes et commentaires sur Facebook et YouTube et les tweets sur Twitter.

Les données mobiles

Les données mobiles sont aussi des données non structurées directement produites par les humains. Comme par exemple les messages textes, ou SMS, et les données de localisation.

Le contenu des sites web est classé dans cette catégorie de données.

Ces dernières se présentent sous plusieurs aspects et proviennent de différentes  sources. Ces données étant adaptables, elles sont exploitées dans de nombreux domaines.

Lire aussi : 

Qu’est-ce que le big data ?

Crédit image : Serj Marco – Dribble

Sommaire

Voir aussi

Voir aussi

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *