Coefficient de détermination, R2 score

Le R2 score, également appelé R-squared, R-carré ou Coefficient de détermination, est une métrique de régression. Il facilite la comparaison des modèles, et peut donc être un bon allié dans les premières phases d’un projet de ML.

25 avril 2022

Dans l’article précédent, nous avons parcouru les métriques de régression classiques. Dans cet article, nous allons nous intéresser au score R2, aussi appelé coefficient de détermination, qui quantifie la performance d’un modèle de régression. Dans cet article, nous utiliserons les notations suivantes :

La variable à prédire prend les valeurs $y_i$ pour $ 1 \leq i \leq n$
Les prédictions sont les $\hat{y}_i$
Les erreurs sont les $e_i = y_i – \hat{y}_i$

R2 score

Le R2 score, aussi appelé R-squared ou coefficient de détermination, est l’une des métriques les plus utilisées pour la régression linéaire. Cette métrique est une version “normalisée” de la MSE (Mean Squared Error). Nous avons vu que la valeur de la MSE d’un modèle basique prédisant tout le temps la moyenne de la variable à prédire est simple : $Var(y)$. On peut alors comparer la MSE d’un modèle de régression à la MSE d’un modèle basique. On s’intéresse donc au rapport entre $MSE(y,\hat{y})$ et $Var(y)$, ce que fait le coefficient de détermination.

Définition

Le R2 score est défini par la formule : \begin{equation*} R2 = 1 – \frac{\sum_{i=1}^n \left(y_i – \hat{y}_i \right)^2}{\sum_{i=1}^n \left(y_i – \bar{y} \right)^2} \end{equation*} On peut voir le R2 comme l’erreur du modèle divisé par l’erreur d’un modèle basique qui prédit tout le temps la moyenne de la variable à prédire Le score R2 est d’autant plus élevé que le modèle est performant, et vaut au maximum 100%, lorsque toutes les prédictions sont exactes. Il n’y a pas de score minimum, mais un modèle simple prédisant tout le temps la valeur moyenne atteint un score R2 de 0%. Par conséquent un score R2 négatif signifie que les prédictions sont moins bonnes que si l’on prédisait systématiquement la valeur moyenne.

Propriétés

Le R2 a deux spécificités : :

Il facilite la comparaison entre différents modèles.
Dire qu’un modèle a une MSE de 25 ne permet pas de conclure si le modèle est correct car cela dépend des valeurs prises par la variable à prédire. Alors que la normalisation faite dans le R2 permet de dire qu’un modèle ayant moins de 20% de R2 n’est pas performant et qu’au contraire un modèle qui atteint plus de 80% de R2 est performant.
Il est en revanche peu interprétable et ne donne pas d’information sur l’erreur moyenne du modèle.
En effet, si le R2 permet de comparer la performance du modèle avec une performance basique, il ne permet pas pour autant de dire quelle erreur est faite en moyenne sur les prédictions. Il faut souvent le combiner avec d’autres métriques afin de mieux comprendre la performance du modèle comme la MSE ou la MAE.

Cas d’usage

Observons le comportement du score R2 en images :

Figure 1. Calcul du score R2 sur un exemple de prédiction de la température.

Après avoir récupéré les erreurs quadratiques associées à chaque prédiction, ces erreurs sont comparées à la variance (division) et sommées pour obtenir le score R2.

Comme le R2 utilise les mêmes termes que la MSE, il est particulièrement utile lorsque l’on préfère éviter de faire de grandes erreurs. En prenant un exemple de prédiction des températures, on utilisera cette métrique lorsque l’on préfère faire 5 erreurs de prédiction de 1°C plutôt qu’une seule erreur de 5°C.

Le R2 permet de faire une comparaison de la performance avec celle d’un modèle simple. Il peut être combiné avec d’autres métriques de régression afin d’avoir une vision plus précise de la performance.

Crédit image : Priti Patil – Dribble