Module 140min3 min czytania

Modèles de Régression pour la Finance

Module 1/80%

🔮 Anticipe

Scenariusz wprowadzajacy

Julien, data analyst chez FinData Corp, prédit le chiffre d'affaires du prochain trimestre avec six variables économiques — et se trompe en moyenne de 1,2 M€ sur 15 M€. Avant de lire : d'après vous, quelle variable pèse le plus sur le CA, le PIB ou la saisonnalité de fin d'année ? Et comment sait-on si deux variables explicatives se « cannibalisent » mutuellement dans un modèle ?

Cele nauczania

✓Construire un modèle de régression linéaire multiple pour prédire des variables financières (chiffre d'affaires, coûts, risque de crédit)
✓Évaluer la qualité d'un modèle : R², RMSE, p-value, multicolinéarité (VIF)
✓Implémenter une régression logistique pour le scoring de risque client en Python (scikit-learn)

Régression linéaire multiple appliquée à la finance

📖 Apprends

La régression linéaire multiple est le modèle fondamental du data analyst finance. Elle permet de modéliser la relation entre une variable dépendante (ex : chiffre d'affaires trimestriel) et plusieurs variables explicatives (PIB, taux d'intérêt, saisonnalité, dépenses marketing). Chez FinData Corp, un modèle à 6 variables explique 87 % de la variance du CA trimestriel (R² = 0,87).

Definicja

R² (coefficient de détermination)

Mesure la proportion de la variance de la variable dépendante expliquée par le modèle. Un R² de 0,87 signifie que 87 % de la variabilité du CA est expliquée par les 6 variables du modèle. Le R² ajusté pénalise l'ajout de variables non significatives.

Variable	Coefficient	p-value	VIF	Interprétation
PIB (croissance %)	2,3 M€	< 0,001	1,8	+1 pt PIB → +2,3 M€ CA
Taux directeur BCE	-1,1 M€	0,003	2,1	+1 pt taux → -1,1 M€ CA
Dépenses marketing (M€)	0,45 M€	0,012	1,3	+1 M€ marketing → +0,45 M€ CA
Saisonnalité (Q4)	+4,2 M€	< 0,001	1,1	Effet Q4 : +4,2 M€ vs moyenne
Nb clients actifs (milliers)	0,08 M€	0,028	3,2	+1 000 clients → +80 K€ CA
Indice confiance consommateur	0,15 M€	0,045	2,8	+1 pt indice → +150 K€ CA

R² = 0,87

Variance expliquée par le modèle

RMSE = 1,2 M€

Erreur moyenne de prédiction

Variables explicatives significatives

±3,2 %

Marge d'erreur moyenne trimestrielle

Impact des variables sur le CA trimestriel (coefficients en M€)

Impact des variables sur le CA trimestriel (coefficients en M€)
Saisonnalité Q4	4.2
PIB	2.3
Taux BCE	-1.1
Marketing	0.45
Confiance conso	0.15
Clients actifs	0.08

Attention à la multicolinéarité : le VIF (Variance Inflation Factor) de « Nb clients actifs » est de 3,2 (seuil d'alerte > 5). Si deux variables sont fortement corrélées (ex : PIB et indice de confiance, VIF 2,8), les coefficients deviennent instables. Utilisez la matrice de corrélation et le VIF pour détecter ce piège avant de valider votre modèle.

Régression logistique : scoring de risque client

La régression logistique est utilisée en finance pour les problèmes de classification binaire : défaut de paiement (oui/non), fraude (oui/non), churn client (oui/non). Chez FinData Corp, le modèle de scoring de risque client utilise 8 variables et atteint une AUC de 0,92 — excellente capacité de discrimination entre clients risqués et sains.

Definicja

Formule — Régression logistique (fonction sigmoïde)

P(défaut) = 1 / (1 + e^(-z)) où z = β₀ + β₁·ancienneté + β₂·impayés + β₃·endettement + … Exemple FinData : Client avec 2 impayés, ratio endettement 75 %, ancienneté 18 mois → z = -1,125 → P(défaut) = 24,5 %

Ćwiczenie praktyczne

Construire un modèle de scoring de risque client

Vous êtes data analyst chez FinData Corp. Le directeur du risque vous demande de construire un modèle de scoring pour les 2 400 clients B2B. Le dataset contient : ancienneté (mois), encours moyen (K€), nb impayés 12 mois, secteur (6 catégories), ratio endettement (%), délai moyen paiement (jours), effectif, note BdF (0-20).
Étape 1 : Analyse exploratoire — Calculez le taux de défaut global (8,3 % des clients). Identifiez les 3 variables les plus corrélées au défaut par une matrice de corrélation.
Étape 2 : Préparez les données — Encodez les variables catégorielles (secteur) en dummies. Normalisez les variables continues. Séparez train (70 %) / test (30 %).
Étape 3 : Entraînez le modèle avec scikit-learn : LogisticRegression(C=1.0, max_iter=1000). Évaluez l'AUC, la précision et le rappel sur le jeu de test.
Étape 4 : Interprétez les coefficients — Le nombre d'impayés (β=0,8) et le ratio d'endettement (β=2,1) sont les variables les plus influentes. Comment traduire ces coefficients en règles métier ?
Étape 5 : Définissez les seuils de décision — Si P(défaut) > 0,30 → refus ou garantie renforcée. Si 0,15 < P < 0,30 → surveillance renforcée. Si P < 0,15 → approbation standard.

Wskazówki

L'AUC (Area Under the Curve) ROC mesure la capacité du modèle à discriminer entre défaut et non-défaut. AUC = 0,5 équivaut au hasard, AUC > 0,8 est bon, AUC > 0,9 est excellent.
Attention au déséquilibre des classes (8,3 % de défauts). Utilisez class_weight='balanced' dans scikit-learn ou sur-échantillonnez la classe minoritaire (SMOTE).

✓ Vérifie

Sprawdź swoją wiedzę

Dans le modèle de régression du CA FinData Corp, le R² est de 0,87. Cela signifie que :
- A.87 % du CA est généré par les 6 variables du modèle
- B.87 % de la variance du CA est expliquée par le modèle
- C.Le modèle prédit le CA avec 87 % de précision
- D.13 % des données sont des outliers
Pokaż odpowiedź
Poprawna odpowiedź : 87 % de la variance du CA est expliquée par le modèle
Le R² mesure la proportion de la variance de la variable dépendante (CA) expliquée par les variables indépendantes du modèle. R² = 0,87 signifie que 87 % de la variabilité trimestrielle du CA est expliquée par les 6 variables.
Un VIF de 3,2 pour la variable « Nb clients actifs » indique :
- A.La variable est non significative et doit être retirée
- B.Une multicolinéarité modérée à surveiller (seuil d'alerte > 5)
- C.Une multicolinéarité critique nécessitant le retrait immédiat de la variable
- D.Que la variable a un pouvoir prédictif 3,2 fois supérieur aux autres
Pokaż odpowiedź
Poprawna odpowiedź : Une multicolinéarité modérée à surveiller (seuil d'alerte > 5)
Un VIF de 3,2 indique une multicolinéarité modérée. Le seuil d'alerte est généralement fixé à 5, et le seuil critique à 10. À 3,2, la variable peut être conservée mais doit être surveillée.

Et maintenant ?

🛠️ Applique

🧮

Wbudowany kalkulator

Analyse de sensibilité

Testez l'impact de chaque variable (PIB, taux, marketing) sur votre forecast en faisant varier les hypothèses.

Otworz kalkulator →

🤖

ActioFin Advisor (kontekstowy)

Conseiller data analyst Solva — modèles de régression finance

Sugerowane pytania

Comment choisir les variables explicatives pour mon modèle de prédiction du CA ?
Mon VIF est > 5 sur deux variables — comment corriger la multicolinéarité ?
Quelle est la différence pratique entre régression linéaire et logistique pour le risque client ?

Zapytaj Advisora →

Zrodla oficjalne

📚INSEE — Indicateurs économiques de conjoncture (PIB, indice de confiance) (2025-01-01)
📚Banque de France — Statistiques et publications (taux directeurs, cotation BdF) (2025-01-01)