Prévoir les risques de dommages extrêmes

Cette étude a été nominée pour le prix SCOR 2017

Logo_SCOR

Objectif

Construire un modèle de Machine Learning permettant de prédire les risques extrêmes et définir une équation tarifaire pour ces risques

Contexte

Une part importante des charges d’un assureur vient d’événements rares mais extrêmement coûteux (incendies, accidents graves…). Du fait de leur rareté, il est très difficile de prédire ces événements.

Résultats

  • Segmentation efficace du risque extrême en trois populations : 60% d’assurés peu risqués, 39% d’assurés 7 fois plus risqués, et 1% d’assurés 20 fois plus risqués.
  • Pricing : un modèle de tarification prenant en compte cette nouvelle segmentation.
  • Le ROI de la nouvelle modélisation mise en oeuvre a été estimé à 4 millions d’euros/an.

Algorithmes

Suréchantillonnage synthétique (SMOTE), Régression de Poisson pénalisée (LASSO), Random Forest, Arbres de régression de Poisson.

Méthode

La principale difficulté de cette mission est que les sinistres graves sont rares. En conséquence, il existe peu de cas représentatifs dans la base d’entraînement (Train). Pour pouvoir entrainer correctement un modèle, il nous faut donc sur-échantillonner les cas minoritaires. Pour cela nous avons utilisé l’algorithme SMOTE (Synthetic Minority Over-sampling TEchnique) avant d’entraîner nos modèles de Machine Learning. Ces modèles ont permis de segmenter la population, mais aussi de sélectionner les variables importantes et d’identifier les interactions et non-linéarités à intégrer dans le modèle de tarification actuarielle.

Le sur-échantillonnage synthétique permet aux algorithmes de Machine Learning de mieux généraliser et développe leur capacité prédictive.