~$ man overfitting
C'est quoi l'overfitting (surapprentissage) ?
définition
L'overfitting se produit lorsqu'un modèle de machine learning mémorise les données d'entraînement au lieu d'apprendre les patterns généraux.
Le modèle capture le bruit et les particularités spécifiques du jeu d'entraînement, ce qui réduit sa capacité à généraliser.
Résultat : excellentes performances sur les données d'entraînement mais mauvaises sur les données de test ou en production.
C'est comme un élève qui apprend par cœur les réponses d'un exercice sans comprendre la logique : il réussit parfaitement cet exercice mais échoue dès qu'on change une petite chose.
à retenir
- L'overfitting survient quand le modèle est trop complexe pour la quantité de données disponible.
- La validation croisée et les courbes d'apprentissage permettent de le détecter rapidement.
- La régularisation L1/L2 et le dropout sont des techniques efficaces pour le limiter.
- Augmenter la taille du jeu de données ou simplifier le modèle réduit souvent l'overfitting.
- Toujours évaluer les performances sur un jeu de test séparé avant de déployer.
le marché en 2026
En 2026, les entreprises cherchent des profils capables de construire des modèles robustes qui ne surapprennent pas, car les modèles en production doivent généraliser sur des données réelles variées. Les postes de ML Engineer et Data Scientist exigent une solide maîtrise des techniques d'évaluation et de régularisation.
questions fréquentes
Comment détecter l'overfitting sur un modèle ?
Compare les performances sur le jeu d'entraînement et le jeu de validation. Si l'écart est grand, c'est probablement de l'overfitting. Les courbes d'apprentissage qui divergent sont aussi un bon indicateur.
Quelle est la différence entre overfitting et underfitting ?
L'overfitting est un excès d'apprentissage qui fait perdre la généralisation. L'underfitting est le contraire : le modèle est trop simple et n'apprend pas assez les patterns des données.
La régularisation suffit-elle toujours contre l'overfitting ?
La régularisation aide beaucoup mais n'est pas magique. Il faut souvent combiner plusieurs approches : plus de données, simplification du modèle, early stopping et validation rigoureuse.
L'overfitting existe-t-il aussi avec les arbres de décision ?
Oui, les arbres de décision sont particulièrement sensibles à l'overfitting quand ils sont trop profonds. On utilise alors l'élagage (pruning) et les forêts aléatoires pour limiter ce risque.
