Qu’est-ce que la Variance ?

La Variance est une mesure fiable, très utilisée pour analyser les données d’une distribution. Après l’avoir comparée avec la moyenne, les experts des données peuvent reconnaître aisément les données aberrantes ou celles qui sont éloignées.

19 janvier 2022

Comment définir la variance ?

La variance est utilisée dans le domaine de la statistique et de la probabilité en tant que mesure servant à caractériser la dispersion d’une distribution ou d’un échantillon. Il est possible de l’interpréter comme la dispersion des valeurs par rapport à la moyenne. Concrètement, la variance est définie comme la moyenne des carrés des écarts à la moyenne. La considération du carré de ces écarts évite que s’annulent des écarts positifs et négatifs.

Visuellement, une distribution avec une grande variance sera plus étalée, alors qu’une distribution avec une petite variance sera très resserrée autour de sa moyenne.

Variance positive ou nulle

La variance est soit positive, soit nulle. Quand elle est nulle, cela veut dire que la variable aléatoire correspond à une constante. Toutes les réalisations sont donc identiques. Le calcul de la variance est indispensable au calcul de l’écart-type.

L’écart-type

L’écart-type est la racine carrée de la variance. C’est la mesure la plus courante relative à la dispersion des données par rapport à la moyenne. De façon analogue à la variance, plus l’écart-type est important, plus les données sont dispersées.

On utilise le symbole σ (sigma) pour représenter l’écart-type d’une population, et le symbole S pour représenter l’écart-type d’un échantillon. Et lorsqu’une variation est aléatoire ou naturelle pour un procédé, on l’appelle souvent bruit. A travers l’écart type, il est possible d’établir une référence en vue d’estimer la variation globale d’un procédé.

Variable quantitative

La variance ne se conçoit que lorsque la variable étudiée est quantitative et mesurée en tenant compte d’une échelle d’intervalles ou de rapports. Aussi, l’unité dans laquelle celle-ci est exprimée vaut le carré de l’unité utilisée pour les valeurs observées. Par exemple, considérant une série de poids exprimés en kilos, la variance correspondante doit s’interpréter en « kilos-carré ». Toutefois cela peut constituer une difficulté en ce qui concerne l’interprétation de la valeur de la variance, d’où l’utilisation de l’écart-type (racine carrée de la variance). De par sa définition, la variance est sensible à la présence de valeurs extrêmes.

Le dilemme Biais-variance

En Machine Learning, le terme variance est retrouvé dans la notion de dilemme biais-variance. En effet, l’erreur faite par un modèle d’apprentissage supervisé peut se décomposer en deux termes :

Le biais : cela correspond à la capacité d’un modèle à s’adapter aux données. Ce biais est souvent calculé comme l’erreur faite par le modèle sur le jeu de données d’apprentissage.
La variance : cela correspond à la robustesse d’un modèle. Cette variance est considérée comme l’écart de performance du modèle entre les données d’apprentissage et les données de test.

Si un modèle minimise le biais sans tenir compte de la variance, on parle d’overfitting ou de surapprentissage des données d’entraînement. A l’inverse, lorsqu’un modèle minimise la variance sans tenir compte du biais, on parle d’underfitting ou de sous-apprentissage des données d’entraînement.

On considère qu’un modèle minimise l’erreur quand il réalise le juste compromis entre biais et variance. La vidéo suivante permet de comprendre clairement ce compromis.

Crédit image à la Une (Dribbble) Pavolov Visuals

Voir aussi

Data Science

Voir aussi

Introduction au Machine Learning

Qu’est-ce que le MLOps ?

Comment déployer en production des modèles de Machine Learning de façon fiable, efficace et...

Machine Learning Avancé

Coefficient de détermination, R2 score

Le R2 score, également appelé R-squared, R-carré ou Coefficient de détermination, est une...

Qu’est-ce que la Variance ?

Comment définir la variance ?

Variance positive ou nulle

L’écart-type

Variable quantitative

Le dilemme Biais-variance

Que sont les données non structurées ?

En quoi consiste le métier de Data Scientist ?

Qu’est-ce que le Data Mining ?

Qu’est-ce que le Big Data ?

Voir aussi

Qu’est-ce que le MLOps ?

Coefficient de détermination, R2 score

Laisser un commentaire Annuler la réponse