Introduction à la Data Science

Comprendre ses enjeux, ses définitions et ses domaines d’application pour mieux appréhender son impact sur les entreprises

Le terme “Data Science” fut créé en 2001 par William S. Cleveland pour désigner la force d’innovation née de la combinaison des statistiques et de la computer science (méthodes informatiques ). Il s’est ensuite popularisé à mesure que l’exploitation des big data devenait à la fois possible et indispensable pour de nombreuses entreprises.

La data science vise à extraire des informations utiles et stratégiques à partir de données. Par nature interdisciplinaire, elle fait appel à des algorithmes, des systèmes experts, ou à d’autres méthodes scientifiques. Cette définition très large est parfois mal comprise et considérée/utilisée comme un “buzzword”.

Pour ne pas s’y perdre, le plus simple est de retenir la finalité de la data science – extraire des informations – car ce terme désigne tant de champs différents – data mining, intelligence artificielle, machine learning, big data… – qu’il signifie tout et rien sur le plan des outils et méthodes. On peut être data scientist après 3 ans d’études comme on peut avoir besoin d’un PhD, selon qu’on utilise des méthodes simples ou des méthodes très avancées.

Le but de cette page est donc de vous donner des repères, afin de savoir ce que la data science peut ou ne peut pas faire pour vous !

Définition Big Data
Le terme Big Data peut être traduit en français par mégadonnées ou données massives. Des ensembles de données trop vastes ou trop difficiles d’exploitation pour être traités en un temps raisonnable par …
Définition de Data Mining
Le Data Mining est une branche de la Data Science qui vise à extraire des informations exploitables à partir de données trop complexes ou trop volumineuses pour être analysées par l’Homme …
Variance définition
La Variance est une mesure fiable, très utilisée pour analyser les données d’une distribution. Après l’avoir comparée avec la moyenne, les experts des données peuvent reconnaître aisément les données aberrantes ou celles qui sont éloignées.