J& #39;ai commencé à travailler sur un petit algorithme de Machine Learning pour prédire le résultat des matchs de foot
La base de donnée est assez dingue: 9 saisons, 25 000 matchs, 10 000 joueurs et leur note sur FIFA
Petit aperçu des stats des joueurs, on retrouve des têtes connues dont @AbdesOuaddou
En vrai il y a beaucoup plus de stats dispo pour chaque joueur (merci FIFA)
Maintenant place à l& #39;analyse des matchs. Pour chaque match, on a la liste des 11 joueurs titulaires de chacune des 2 équipes. On commence par des stats simples: moyenne de la note FIFA, note du meilleur/pire joueur et dispersion des notes dans chaque équipe (écart-type)
Ici par exemple, c& #39;est le PSG qui reçoit Nice EN 2010, moyenne de 75 vs 62, avec des notes beaucoup plus dispersées pour le PSG en comparaison à Nice
Les notes FIFA c& #39;est pas tout ! On va maintenant s& #39;intéresser à d& #39;autres variables potentiellement décisives pour pronostiquer un match. Par exemple la forme sur les 60 derniers jours: à domicile, à l& #39;extérieur, buts marqués et encaissés, notes des joueurs utilisés
On utilise aussi des variables beaucoup moins intuitives. Par exemple le mois de l& #39;année: si historiquement il y a plus de matchs nuls en Août à la reprise ça va être pris en compte par l& #39;algo. Idem pour le jour de la semaine
On essaie de prendre aussi en compte le niveau de fatigue. Difficile à mesure mais on peut prendre le nombre de matchs joués dans la semaine/mois/ 60 jours glissants
Autre variable intéressante : le kurtosis de la distribution des buts marqués. Ca représente la propension d& #39;une équipe à atteindre des valeurs extrêmes. Typiquement le PSG, un club habitué à mettre des branlées en championnat aura un Kurtosis élevé
La formule est barbare mais on peut l& #39;interpréter facilement. Si la moyenne de buts marqués à domicile par le PSG est de 3 buts, un kurtosis élevé fera que les matchs avec 7, 8 ou 9 buts marqués seront relativement fréquents (cc @EAGuingamp )
Bon, c& #39;est bien beau toutes ces variables mais parmi les 200 fraichement créées lesquelles sont vraiment déterminantes pour pronostiquer l& #39;issue d& #39;un match ?
Pour répondre à cette question on va utiliser une méthode de Machine Learning : Recursive Featuring Elimination
A titre d& #39;exemple voici les 10 variables les plus importantes de mon échantillon (80% des 25000 matchs de ma base de données)
Par exemple (fenêtre de 60 jours glissants)
* Différence de buts (total, max , min et dispersion)
* Dispersion des notes FIFA
Stay tuned for more updates
J& #39;ai eu un peu de retard, don& #39;t worry, j& #39;essaie juste d& #39;implémenter une variable booléenne "mèches blondes du numéro 7"
https://twitter.com/3rueStHonore/status/1115674324147560450?s=19">https://twitter.com/3rueStHon...
You can follow @QuantArtisan.
Tip: mention @twtextapp on a Twitter thread with the keyword “unroll” to get a link to it.

Latest Threads Unrolled: