Les métriques de régression sont utilisées en machine learning pour optimiser les modèles de régression, évaluer leurs performances finales et les comparer entre eux. Avec le grand nombre de métriques disponibles, il n’est pas toujours simple de choisir celle qui convient le mieux au cas d’usage. Et le résultat final peut être sensiblement différent selon la métrique utilisée pour optimiser et sélectionner les modèles.
Nous présentons ici les métriques de régression les plus utilisées, leurs avantages, inconvénients et cas d’usage. Pour détailler les métriques de régression, nous utiliserons les notations suivantes :
- La variable à prédire prend les valeurs $y_i$ pour $ 1 \leq i \leq n$
- Les prédictions sont notées $\hat{y}_i$
- Les erreurs sont notées $e_i = y_i – \hat{y}_i$
Afin d’illustrer les différentes métriques, nous prenons un exemple de prédiction de la température à plusieurs heures de la journée. Nous considérons les valeurs réelles (en vert) et les valeurs prédites par le modèle (en bleu).
Figure 1. Exemple de prédiction de la température. Les prédictions du modèle ($\hat{y}_i$) sont en bleu, la température réellement observée ($y_i$) est en vert et l’erreur entre les prédictions et la réalité ($e_i$) est en orange.
Root Mean Squared Error (RMSE/MSE)
La Root Mean Squared Error (RMSE) et la Mean Squared Error (MSE) sont les métriques de régression les plus courantes. Du fait de leurs propriétés de régularité, ce sont les métriques historiques pour optimiser les modèles de régression comme la régression linéaire.
Définition
La MSE, ou erreur quadratique moyenne, est la moyenne des carrés des erreurs, définie par la formule :
\begin{equation*}
MSE = \frac{1}{n} \sum_{i=1}^n e_i^2 = \frac{1}{n} \sum_{i=1}^n (y_i – \hat{y}_i)^2
\end{equation*}
La RMSE, ou racine de l’erreur quadratique moyenne, est – comme son nom l’indique – la racine carrée de la MSE. Mathématiquement, elle est définie par :
\begin{equation*}
RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i – \hat{y}_i)^2}
\end{equation*}
Contrairement à la MSE, la RMSE s’exprime dans la même unité que la variable à prédire et est par conséquent plus facile à interpréter.
Ces métriques quantifient les erreurs réalisées par le modèle. Plus elles sont élevées, moins le modèle est performant.
Propriétés
Les définitions de la RMSE et la MSE leur confèrent plusieurs propriétés à connaître absolument :
- Ces métriques pénalisent plus fortement les grandes erreurs que les petites erreurs. Etant donné le carré dans la somme, une erreur 3 fois plus grande aura 9 fois plus d’impact sur la moyenne
- Par conséquent elles sont très sensibles aux outliers.
- Les outliers sont des points pour lesquels la valeur réelle est aberrante. La prédiction sera donc souvent très éloignée de cette valeur aberrante, ce qui accroît fortement la contribution des individus outliers dans ces métriques.
- Elles sont facilement optimisables.
- Ces métriques sont dérivables et peuvent être utilisées avec des algorithmes à base de gradient. On peut même dans certains cas obtenir une formule explicite sans avoir à faire d’optimisation stochastique. C’est le cas de la régression par moindres carrés ordinaires (MCO).
Notons que pour un modèle simpliste qui prédirait toutes les observations à la moyenne, la MSE vaut la variance de la variable à prédire et la RMSE son écart-type.
Cas d’usage :
Observons le comportement de la MSE et la RMSE en images :
Figure 2. Calcul des erreurs quadratiques sur l’exemple de prédiction de la température.
Après avoir récupéré les erreurs associées à chaque prédiction, on les met au carré et on calcule leur moyenne. Le passage au carré nécessite une échelle différente (en rouge) puisqu’on change d’unité ($\text{Température}^2$).
Ici la MSE a accordé beaucoup d’importance à l’erreur la plus grande (correspondant à la prédiction de 12h) par rapport aux autres erreurs. Cette propriété est flagrante dans notre exemple, puisque la moyenne des erreurs quadratiques est plus grande que toutes les autres erreurs.
La MSE et la RMSE sont donc particulièrement utiles lorsque l’on préfère éviter de faire de grandes erreurs. En prenant un exemple de prédiction des températures, on utilisera ces métriques lorsque l’on préfère faire 5 erreurs de prédiction de 1°C plutôt qu’une seule erreur de 5°C.
Elles seront aussi utiles lorsque l’on cherche une solution explicite au problème donné.
Mean Absolute Error (MAE)
La MAE est la métrique de régression la plus interprétable, ce qui en fait une métrique populaire malgré son manque de régularité.
Définition
La MAE, ou erreur absolue moyenne, est la moyenne des valeurs absolues des erreurs, définie par la formule :
\begin{equation*}
MAE = \frac{1}{n} \sum_{i=1}^n |e_i| = \frac{1}{n} \sum_{i=1}^n |y_i – \hat{y}_i|
\end{equation*}
La MAE est dans la même unité que la variable à prédire. Par conséquent, elle est facile à interpréter.
Cette métrique quantifie l’erreur réalisée par le modèle. Plus elle est élevée, moins le modèle est performant.
Propriétés
Étant donné son interprétabilité et ses propriétés, la MAE peut être utilisée en complément d’autres métriques comme la MSE. Les trois propriétés principales de la MAE sont :
- La MAE pénalise autant les grandes erreurs que les petites erreurs, contrairement à la MSE.
- Du fait de l’utilisation d’une valeur absolue dans la somme, une erreur 3 fois plus grande aura 3 fois plus d’impact sur l’erreur.
- Cette métrique est sensible aux outliers.
- L’observation d’une valeur aberrante pénalise le modèle, mais moins que pour la MSE.
- Elle est moins régulière et par conséquent moins optimisable que la MSE.
- La valeur absolue n’est pas dérivable en 0, ce qui rend la MAE plus compliquée à optimiser que la MSE ou la RMSE.
Cas d’usage
Observons le comportement de la MAE en images :
Figure 3. Calcul des erreurs absolues sur l’exemple de prédiction de la température.
La MAE est plus interprétable car il n’y a pas de changement d’échelle par rapport à l’erreur de prédiction. Cette métrique n’amplifie pas les écarts entre les erreurs faibles et les erreurs fortes.
La MAE est utile lorsque l’on s’intéresse à la quantité globale d’erreur, peu importe la taille de chaque erreur. En prenant un exemple de prédiction des températures, on utilisera cette métrique lorsque l’on considère équivalent de faire 5 fois une erreur de prédiction de 1°C ou de faire une seule erreur de 5°C.
Mean Absolute Percentage Error (MAPE)
La Mean Absolute Percentage Error (MAPE) est la métrique de régression utilisée lorsque l’on considère l’erreur du modèle en proportion de la valeur prédite. Pour la comprendre intuitivement, prenons un exemple : vous prédisez le nombre de personnes qui viendront à la soirée que vous organisez, et vous prédisez correctement ce nombre à un invité près. L’effet de votre erreur n’est pas le même selon que vous avez 5 invités ou 100 invités : un invité de plus ou de moins dans une soirée de 100 invités a beaucoup moins d’importance que dans une soirée de 5 invités. C’est l’idée de la MAPE.
Définition
La MAPE, ou erreur absolue moyenne en pourcentage, est définie par la formule :
\begin{equation*}
MAPE = \frac{1}{n} \sum_{i=1}^n \left| \frac{e_i}{y_i} \right| = \frac{1}{n} \sum_{i=1}^n \left| \frac{y_i – \hat{y}_i}{y_i} \right|
\end{equation*}
La MAPE s’exprime en pourcentage, ce qui la rend facile à interpréter. En langage naturel, la MAPE peut se traduire par le pourcentage moyen d’écart entre la valeur prédite et la réalité. Elle quantifie l’erreur réalisée par le modèle : plus elle est élevée, moins le modèle est performant.
Propriétés
La MAPE est une métrique interprétable dont les principales propriétés sont :
- Cette métrique pénalise moins les erreurs lorsque la réalité prend de grandes valeurs (absolues).
- La somme est pondérée par les valeurs réelles, par conséquent une erreur de 1 pour une valeur réelle de 10 aura le même impact sur la MAPE qu’une erreur de 10 pour une valeur réelle de 100.
- Cette métrique est parfois sensible aux outliers.
- Ceux-ci peuvent avoir un fort impact s’ils prennent des valeurs faibles et que le modèle leur prédit des valeurs élevées.
- Comme la MAE, la MAPE est moins optimisable.
- La valeur absolue n’est pas dérivable en 0 ce qui rend la MAPE plus compliquée à optimiser que la MSE ou la RMSE.
- Cette métrique n’est pas définie pour les valeurs réelles nulles.
- Pour résoudre ce problème, il est possible de définir une valeur minimale $\varepsilon$ et remplacer la division par $|y_i|$ par la division par $\max(|y_i|, \varepsilon)$
- Les faibles valeurs peuvent faire exploser la MAPE.
- Lorsque la valeur à prédire varie sur une large échelle et qu’elle est souvent proche de 0, il est possible de se retrouver avec une prédiction de 100 pour une valeur réelle de 0.1, ce qui donne une MAPE de 100 000%.
S’il faut surtout retenir un point parmi ces remarques, c’est que les valeurs réelles faibles ont beaucoup d’impact sur la MAPE.
Cas d’usage
Observons le comportement de la MAPE en images :
Figure 4. Calcul des erreurs en pourcentage sur l’exemple de prédiction de la température.
Le calcul de la MAPE génère un changement d’échelle important puisque l’on passe d’une erreur en température à une erreur en pourcentage. Lors de ce changement d’échelle on peut remarquer que :
- Lorsque la température réelle est la plus basse (à 9h et 12h), les erreurs sont amplifiées.
- Lorsque la température réelle est la plus élevée (à 15h et 18h) les erreurs sont réduites.
La MAPE est utile lorsque l’on veut présenter les résultats avec une métrique facilement communiquable.
Mean Squared Logarithmic Error (MSLE)
La MSLE est proche de la MSE, mais les valeurs réelles et prédites sont remplacées par leurs logarithmes pour prendre en compte des variations exponentielles. Cela en fait une métrique adaptée lorsque les valeurs prédites varient sur une grande échelle.
Définition
La MSLE, ou erreur logarithmique quadratique moyenne, est définie par la formule :
\begin{align*}
MSLE &= \frac{1}{n} \sum_{i=1}^n \left( \ln (y_i +1) – \ln(\hat{y}_i +1) \right)^2 \\
&= \frac{1}{n} \sum_{i=1}^n \left( \ln (\frac{y_i +1}{\hat{y}_i +1}) \right)^2
\end{align*}
La MSLE ne s’exprime pas dans une unité simple, ce qui la rend difficile à interpréter. Mais grâce à l’utilisation du logarithme, la MSLE réduit l’importance des erreurs pour de grandes valeurs réelles comme le fait la MAPE.
Cette métrique quantifie l’erreur réalisée par le modèle. Plus elle est élevée, moins le modèle est performant.
Propriétés
La MSLE est adaptée à une utilisation lorsque l’échelle des valeurs prédites est étalée, on retrouve donc les mêmes propriétés que pour la MAPE en dehors des points suivants :
- Cette métrique s’utilise uniquement sur des valeurs positives.
- Comme le logarithme n’est pas défini pour des valeurs négatives (ou nulles), pour garantir l’utilisation de la MSLE avec des valeurs positives ($y_i >= 0$ et $\hat{y}_i >= 0$), on ajoute 1 au numérateur et au dénominateur dans la définition. Cette métrique est donc faite pour être utilisée avec des valeurs positives.
- Il reste toutefois possible de calculer la MSLE en translatant toutes les valeurs par la valeur minimale.
- Elle est peu sensible aux outliers, du fait du logarithme qui réduit l’effet des écarts extrêmes.
- Elle est facilement optimisable.
- Comme sa définition est proche de la MSE, il est possible de l’optimiser en transformant d’abord les valeurs à prédire à l’aide du logarithme puis en minimisant la MSE avec ces nouvelles valeurs à prédire.
- Elle pénalise plus fortement les sous-estimations que les sur-estimations.
- Par exemple, pour une valeur réelle de 200, une prédiction de 150 (sous-estimation de 50) aura une erreur logarithmique au carré de 0,08 et une prédiction de 250 (sur-estimation de 50) aura une erreur de 0,05. Nous détaillons ce point dans la comparaison MAPE/MSLE ci-dessous.
Cas d’usage
Observons le comportement de la MSLE en image :
Figure 5. Calcul de l’erreur logarithme quadratique sur l’exemple de prédiction de la température.
Avec la MSLE on obtient une échelle non interprétable. Cette échelle a le même effet que pour la MAPE :
- Lorsque la température réelle est la plus basse (à 9h et 12h), les erreurs sont amplifiées
- Lorsque la température réelle est la plus élevée (à 15h et 18h) les erreurs sont réduites
La MSLE est utile lorsque les données contiennent des outliers et que la MSE ou la MAE sont affectés par ceux-ci. Mais il faut faire attention à l’utiliser sur des valeurs positives.
Comparaison MSLE / MAPE
La MSLE et la MAPE sont deux métriques robustes aux changements d’échelle. Dans les deux cas, une prédiction de 500€ au lieu de 400€ sera équivalente à une prédiction de 250€ au lieu de 200€. En revanche, il est équivalent avec la MAPE de prédire 500€ ou 300€ pour une valeur réelle à 400€, tandis qu’avec la MSLE, la prédiction de 300€ sera plus fortement pénalisée car elle sous-estime la réalité.
Valeur réelle | Valeur prédite | MAPE | MSLE |
400 | 500 | 0,25 | 0,05 |
200 | 250 | 0,25 | 0,05 |
200 | 150 | 0,25 | 0,08 |
400 | 300 | 0,25 | 0,08 |
Erreur en pourcentage constante | Erreur logarithmique différente selon la sous ou surestimation | ||
Conclusion
Les métriques de régression les plus utilisées diffèrent par leur façon de pondérer les termes d’erreur. Résumons les principales informations de chaque métrique :
Métrique | Avantages | Inconvénients | Exemple |
MSE/RMSE | Accentue les fortes erreurs, régulière, optimisable | Sensible aux outliers | On accepte 5 erreurs de 1°C plus qu’une seule erreur de 5°C |
MAE | Homogène, interprétable | Sensible aux outliers | 5 erreurs de 1°C sont équivalentes à une seule erreur de 5°C |
MAPE | Robuste aux changements d’échelle, interprétable | Sensible aux faibles valeurs, utilisable sur des valeurs non nulles uniquement | Une erreur de 10% sur une réalité de 10€ (9 ou 11€) est équivalente à une erreur de 10% sur une réalité de 100€ (90 ou 110€) |
MSLE | Robuste aux changements d’échelle, régulière, optimisable | Peu interprétable, utilisable sur des valeurs positives, non symétrique | On préfère surestimer de 10% que de sous estimer de 10% peu importe la valeur de la réalité. |
L’animation suivante permet de percevoir les différences d’évolution entre les métriques (regarder la vidéo en plein écran pour mieux la visualiser) :
Figure 6. Comparaison des métriques de régression sur un exemple de prédiction de la température.
Cette comparaison montre plusieurs propriétés détaillées dans cet article :
- La MAPE et la MSLE sont plus dépendantes de l’erreur sur les valeurs faibles : on observe que la part d’erreur attribuée à la valeur réelle la plus faible (à 9h) est plus importante avec ces métriques.
- La MSE accorde plus d’importance aux erreurs plus grandes que les autres métriques : la part d’erreur attribuée à l’erreur la plus grande (à 12h) est plus élevée pour cette métrique.
Dans cet article, nous avons décrit les propriétés et comportement des métriques de régression les plus courantes quantifiant l’erreur de prédiction : plus l’erreur est faible, meilleur est le modèle. Dans le prochain article, nous présenterons la métrique de régression quantifiant la performance de prédiction la plus utilisée : le R2 score.