Modèles prédictifs : définition
Les modèles prédictifs sont utilisés pour réaliser des prédictions sur le futur. Voir à ce sujet notre article sur l’analyse prédictive.
Concrètement, ils peuvent être considérés selon deux composantes :
La connaissance du système
Un modèle permet de traduire une réalité – par exemple la fréquentation d’un site web – sous une forme mathématique. Le modèle peut être obtenu de plusieurs façons :
- En utilisant des observations. Cette méthode est notamment utilisée dans le machine learning grâce à la disponibilité d’une grande quantité de données à l’ère du big data. Par exemple, en analysant les cookies d’un site internet, il est possible de savoir que lorsqu’un utilisateur passe plus de 1 minute sur la page d’accueil du site alors dans 7 cas sur 10, il va rester plus de 5 minutes sur ce site.
- En définissant un modèle théorique. Par exemple, en mécanique pour décrire le mouvement d’un objet, on décrit les forces qui s’appliquent sur l’objet pour définir un modèle théorique du mouvement.
L’évolution du système
A partir d’un état donné, l’utilisation des connaissances du système permet de prédire son évolution. Ainsi connaissant le site web sur lequel est l’utilisateur et le temps qu’il y a passé, le modèle prédictif peut donner des prédictions sur le parcours de l’utilisateur sur Internet, les pages sur lesquelles il va aller et le temps qu’il va y passer.
Pourquoi un modèle prédictif ?
Les modèles prédictifs sont utilisés pour les 2 principaux cas d’usage suivants.
Prédiction d’un événement – Modèles de classification
Le premier cas d’usage est la prédiction d’un événement. L’objectif est de répondre à la question : est-ce que tel événement va arriver ? Pour un exemple concret, en météorologie la question peut être : va-t-il pleuvoir aujourd’hui ?
A partir des connaissances a priori (données et modélisation), le modèle donne une probabilité pour l’événement. De tels modèles sont appelés modèles de classification. Les modèles prédictifs introduisent une notion de risque; ils ne font pas de prédiction totalement certaine. Ainsi en météorologie un modèle peut prédire un risque de précipitation de 98%, mais pas une certitude absolue.
Des modèles similaires existent sur ce principe de classification mais ils répondent plutôt à un objectif d’efficacité opérationnelle et non de prédiction. Par exemple, en détection de fraudes, un modèle répond à la question “Est-ce que cette opération est frauduleuse ?” et prédit 75% de risque de fraude sur cette opération.
Prédiction d’une quantité – Modèles de régression
Le deuxième cas d’usage est la prédiction d’une quantité. On parle alors de modèle de régression. Dans cette situation le modèle peut répondre à deux questions :
- Observation : Quelle quantité sera observée ? Par exemple : quel est le nombre de personnes qui vont assister au festival de Cannes ? Le modèle peut utiliser la popularité des acteurs présents, le succès des films dans l’année ou la météo pour y répondre.
- Évolution : Comment va évoluer la quantité dans le temps ? Par exemple : Combien de Vélib’ vont être utilisés heure par heure les prochains mois ? Pour répondre à cette question, le modèle exploite l’historique d’utilisation des Vélib’. Il s’appuie alors sur la tendance – utilisation des Vélib’ en baisse au fil des années avec l’arrivée d’autres mobilités – ou encore la saisonnalité – les Vélib’ sont plus utilisés en été qu’en hiver, et moins utilisés entre 14h et 17h qu’entre 18h et 20h.
Dans les deux cas d’usage, la notion d’incertitude est toujours présente, comme pour la prédiction d’un événement. La part d’aléatoire est ici évidente : il est impossible de prédire le nombre exact de Vélib’ utilisés à une heure donnée de façon certaine.
Notons que même pour des modèles prédictifs “exacts” comme des modèles physiques, l’observation est sujette à des incertitudes de mesure.
La vidéo suivante explique la différence entre une tâche de classification et une tâche de régression dans un cadre plus général que les modèles prédictifs. Lire aussi : Qu’est-ce qu’une régression linéaire ?
Conclusion
En utilisant les connaissances sur un système de données obtenues par observation ou modélisation, les modèles prédictifs permettent d’anticiper l’évolution de ce système. Ces modèles permettent de prédire des événements (classification) ou des quantités (régression) de façon statistiquement fiable mais conservent toujours une part d’incertitude.
Les qualités de ces modèles en font de très bons outils dans plusieurs domaines, tels que la finance, le marketing et la santé.
Crédit image : Joanna Ławniczak – Dribble