Cas pratique : utilisation du machine learning pour anticiper les départs salariés
Contexte : une PME face à une hausse du turnover
L’entreprise fictive TechFab Solutions, spécialisée dans l’industrie et la digitalisation industrielle, compte 180 salariés.
En deux ans, le turnover est passé de 9 % à 18 %, entraînant des pertes de compétences techniques et une augmentation des coûts de recrutement.
Le DRH pose une question centrale :
“Peut-on prédire quels collaborateurs risquent de quitter l’entreprise dans les prochains mois ?”
Objectif du projet IA RH
Le projet vise à construire un modèle de prédiction capable de :
- identifier les salariés à risque de départ ;
- comprendre les facteurs explicatifs ;
- aider les équipes RH à agir en amont.
Étape 1 : hypothèses métier RH
Avant toute modélisation, les hypothèses suivantes sont formulées :
- salaire perçu comme insuffisant ;
- surcharge de travail ;
- absence de perspectives d’évolution ;
- qualité du management ;
- faible reconnaissance ;
- distance domicile-travail ;
- niveau d’engagement.
Étape 2 : données RH utilisées
| Variable | Description |
|---|---|
| Age | Âge du salarié |
| Anciennete | Ancienneté dans l’entreprise |
| Salaire | Rémunération |
| HeuresSup | Heures supplémentaires |
| Distance | Distance domicile-travail |
| Satisfaction | Score d’enquête interne |
| Formation | Heures de formation |
| Promotion | Promotion récente ou non |
| ManagerScore | Qualité du management |
| Depart | Cible : départ (0/1) |
Étape 3 : problème de machine learning
Il s’agit d’un problème de classification binaire : prédire si un salarié va partir ou non.
Deux approches sont testées :
- régression logistique (interprétabilité) ;
- Random Forest (performance).
Dans un contexte RH, l’explicabilité du modèle reste essentielle pour la prise de décision.
Étape 4 : préparation des données
- nettoyage des données manquantes ;
- encodage des variables catégorielles ;
- normalisation des variables numériques ;
- vérification de la cohérence des données SIRH.
Étape 5 : analyse exploratoire RH
L’analyse des données révèle des tendances fortes :
- faible satisfaction associée à un risque élevé de départ ;
- heures supplémentaires élevées corrélées au turnover ;
- absence de promotion comme facteur aggravant.
Étape 6 : modèle de prédiction
La régression logistique permet d’obtenir une probabilité de départ pour chaque salarié.
- Employé A : 82 %
- Employé B : 11 %
- Employé C : 67 %
Poids des facteurs RH
| Facteur | Impact |
|---|---|
| Satisfaction faible | Très fort |
| Heures supplémentaires | Fort |
| Salaire faible | Fort |
| Absence de promotion | Moyen |
| Formation faible | Modéré |
Étape 7 : amélioration avec Random Forest
Random Forest permet de capturer des interactions complexes entre variables RH.
Exemple : un salaire faible seul n’est pas toujours suffisant pour expliquer un départ, mais combiné à une surcharge de travail et un management faible, le risque augmente fortement.
Résultats des modèles
| Modèle | Précision |
|---|---|
| Régression logistique | 74 % |
| Random Forest | 86 % |
Traduction opérationnelle RH
| Risque | Action RH |
|---|---|
| > 80 % | Entretien manager immédiat |
| 60–80 % | Revue salariale |
| 40–60 % | Suivi RH renforcé |
| < 40 % | Surveillance normale |
Exemple de salarié à risque
- 2 ans d’ancienneté
- salaire sous le marché
- 14 heures supplémentaires / semaine
- satisfaction : 4/10
- aucune promotion
Probabilité de départ : 87 %
Exemple Python (machine learning RH)
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
X = data[["Salaire","Satisfaction","HeuresSup","Anciennete"]]
y = data["Depart"]
X_train, X_test, y_train, y_test = train_test_split(X, y)
model = RandomForestClassifier()
model.fit(X_train, y_train)
prediction = model.predict(X_test)
Dashboard RH prédictif
- équipes à risque
- facteurs de départ
- salariés critiques
- évolution du turnover
Outils : Python, SQL, Power BI, Tableau.
Résultats après 8 mois
| KPI | Avant | Après |
|---|---|---|
| Turnover | 18 % | 11 % |
| Profils clés perdus | Élevé | Réduit |
| Coût recrutement | Élevé | Réduit |
| Satisfaction | 5.8/10 | 7.1/10 |
Limites et vigilance
- respect du RGPD
- risque de biais algorithmiques
- nécessité d’une validation humaine
- importance de l’explicabilité