Quelle est leur importance ?
Avec l’utilisation croissante et intensive des données, ce type de données est de plus en plus présent car elles permettent de stocker des informations qui pourront être utiles sans en connaître l’utilisation à l’avance. On les retrouve sous une multitude de formats de fichiers. Il est possible de les utiliser dans de nombreux contextes. Elles sont parfois désignées par le terme données qualitatives.
Les données non structurées, c’est quoi ?
Une donnée non structurée est une donnée brute stockée dans son format d’origine. On utilise alors le système du “schema-on-read” ou schéma à la lecture en opposition au “schema-on-write” qui transforme la donnée avant son traitement. Les données non structurées représentent la plupart des données générées sur le Web.
Une question qui revient souvent : quelle est la différence entre données structurées et données non structurées ?
Données structurées textuelles et non textuelles
On trouve d’un côté des données textuelles produites par les documents Word, les courriels, les présentations PowerPoint ou les logiciels de collaboration ou de messagerie instantanée. De l’autre côté, il y a les données non textuelles qui sont issues des fichiers audio MP3, des images JPEG ou des fichiers de vidéo Flash.
Quelles sont les sources de ces données ?
Il y a principalement deux sources de production : l’ordinateur et les humains.
Données produites par la machine
Les satellites
On peut citer en exemple les images satellites dont les données météorologiques. Il en est de même des données récupérées lorsqu’une surveillance par satellite est mise en place, comme c’est le cas avec Google Earth.
Les données scientifiques
Les données scientifiques font aussi partie des données générées par la machine. Sont notamment concernées les images présentant les activités sismiques ainsi que les données atmosphériques et physiques relatives aux hautes énergies.
Les données issues des photos et vidéos
Il y a également les résultats des photographies et vidéos. On peut s’intéresser par exemple aux données que les systèmes de vidéosurveillance ont générées.
Les radars
En outre, les informations des radars sont considérées comme des données non structurées issues de la machine.
Données fournies par les humains
Les textes
L’Humain produit des données non structurées dans divers contextes. C’est le cas des textes internes à l’entreprise, comme ce qui est écrit dans les procédures, les échanges d’email et le contenu des documentations.
Les médias sociaux
Ce type de données provient également des médias sociaux. Il s’agit donc de toutes les données qu’on produit sur les réseaux sociaux, tels que les likes et commentaires sur Facebook et YouTube et les tweets sur Twitter.
Les données mobiles
Les données mobiles sont aussi des données non structurées directement produites par les humains. Comme par exemple les messages textes, ou SMS, et les données de localisation.
Le contenu des sites web est classé dans cette catégorie de données.
Ces dernières se présentent sous plusieurs aspects et proviennent de différentes sources. Ces données étant adaptables, elles sont exploitées dans de nombreux domaines.
Lire aussi :
Crédit image : Serj Marco – Dribble