Julien, data analyst chez FinData Corp, prédit le chiffre d'affaires du prochain trimestre avec six variables économiques — et se trompe en moyenne de 1,2 M€ sur 15 M€. Avant de lire : d'après vous, quelle variable pèse le plus sur le CA, le PIB ou la saisonnalité de fin d'année ? Et comment sait-on si deux variables explicatives se « cannibalisent » mutuellement dans un modèle ?
La régression linéaire multiple est le modèle fondamental du data analyst finance. Elle permet de modéliser la relation entre une variable dépendante (ex : chiffre d'affaires trimestriel) et plusieurs variables explicatives (PIB, taux d'intérêt, saisonnalité, dépenses marketing). Chez FinData Corp, un modèle à 6 variables explique 87 % de la variance du CA trimestriel (R² = 0,87).
R² (coefficient de détermination)
Mesure la proportion de la variance de la variable dépendante expliquée par le modèle. Un R² de 0,87 signifie que 87 % de la variabilité du CA est expliquée par les 6 variables du modèle. Le R² ajusté pénalise l'ajout de variables non significatives.
| Variable | Coefficient | p-value | VIF | Interprétation |
|---|---|---|---|---|
| PIB (croissance %) | 2,3 M€ | < 0,001 | 1,8 | +1 pt PIB → +2,3 M€ CA |
| Taux directeur BCE | -1,1 M€ | 0,003 | 2,1 | +1 pt taux → -1,1 M€ CA |
| Dépenses marketing (M€) | 0,45 M€ | 0,012 | 1,3 | +1 M€ marketing → +0,45 M€ CA |
| Saisonnalité (Q4) | +4,2 M€ | < 0,001 | 1,1 | Effet Q4 : +4,2 M€ vs moyenne |
| Nb clients actifs (milliers) | 0,08 M€ | 0,028 | 3,2 | +1 000 clients → +80 K€ CA |
| Indice confiance consommateur | 0,15 M€ | 0,045 | 2,8 | +1 pt indice → +150 K€ CA |
| Saisonnalité Q4 | 4.2 |
|---|---|
| PIB | 2.3 |
| Taux BCE | -1.1 |
| Marketing | 0.45 |
| Confiance conso | 0.15 |
| Clients actifs | 0.08 |
La régression logistique est utilisée en finance pour les problèmes de classification binaire : défaut de paiement (oui/non), fraude (oui/non), churn client (oui/non). Chez FinData Corp, le modèle de scoring de risque client utilise 8 variables et atteint une AUC de 0,92 — excellente capacité de discrimination entre clients risqués et sains.
Formule — Régression logistique (fonction sigmoïde)
P(défaut) = 1 / (1 + e^(-z)) où z = β₀ + β₁·ancienneté + β₂·impayés + β₃·endettement + … Exemple FinData : Client avec 2 impayés, ratio endettement 75 %, ancienneté 18 mois → z = -1,125 → P(défaut) = 24,5 %
Dans le modèle de régression du CA FinData Corp, le R² est de 0,87. Cela signifie que :
Poprawna odpowiedź : 87 % de la variance du CA est expliquée par le modèle
Le R² mesure la proportion de la variance de la variable dépendante (CA) expliquée par les variables indépendantes du modèle. R² = 0,87 signifie que 87 % de la variabilité trimestrielle du CA est expliquée par les 6 variables.
Un VIF de 3,2 pour la variable « Nb clients actifs » indique :
Poprawna odpowiedź : Une multicolinéarité modérée à surveiller (seuil d'alerte > 5)
Un VIF de 3,2 indique une multicolinéarité modérée. Le seuil d'alerte est généralement fixé à 5, et le seuil critique à 10. À 3,2, la variable peut être conservée mais doit être surveillée.
Testez l'impact de chaque variable (PIB, taux, marketing) sur votre forecast en faisant varier les hypothèses.
Otworz kalkulator →Conseiller data analyst Solva — modèles de régression finance
Sugerowane pytania