J'ai commencé à travailler sur un petit algorithme de Machine Learning pour prédire le résultat des matchs de foot
La base de donnée est assez dingue: 9 saisons, 25 000 matchs, 10 000 joueurs et leur note sur FIFA
Petit aperçu des stats des joueurs, on retrouve des têtes connues dont @AbdesOuaddou
En vrai il y a beaucoup plus de stats dispo pour chaque joueur (merci FIFA)
Maintenant place à l'analyse des matchs. Pour chaque match, on a la liste des 11 joueurs titulaires de chacune des 2 équipes. On commence par des stats simples: moyenne de la note FIFA, note du meilleur/pire joueur et dispersion des notes dans chaque équipe (écart-type)
Ici par exemple, c'est le PSG qui reçoit Nice EN 2010, moyenne de 75 vs 62, avec des notes beaucoup plus dispersées pour le PSG en comparaison à Nice
Les notes FIFA c'est pas tout ! On va maintenant s'intéresser à d'autres variables potentiellement décisives pour pronostiquer un match. Par exemple la forme sur les 60 derniers jours: à domicile, à l'extérieur, buts marqués et encaissés, notes des joueurs utilisés
On utilise aussi des variables beaucoup moins intuitives. Par exemple le mois de l'année: si historiquement il y a plus de matchs nuls en Août à la reprise ça va être pris en compte par l'algo. Idem pour le jour de la semaine
On essaie de prendre aussi en compte le niveau de fatigue. Difficile à mesure mais on peut prendre le nombre de matchs joués dans la semaine/mois/ 60 jours glissants
Autre variable intéressante : le kurtosis de la distribution des buts marqués. Ca représente la propension d'une équipe à atteindre des valeurs extrêmes. Typiquement le PSG, un club habitué à mettre des branlées en championnat aura un Kurtosis élevé
La formule est barbare mais on peut l'interpréter facilement. Si la moyenne de buts marqués à domicile par le PSG est de 3 buts, un kurtosis élevé fera que les matchs avec 7, 8 ou 9 buts marqués seront relativement fréquents (cc @EAGuingamp )
Bon, c'est bien beau toutes ces variables mais parmi les 200 fraichement créées lesquelles sont vraiment déterminantes pour pronostiquer l'issue d'un match ?
Pour répondre à cette question on va utiliser une méthode de Machine Learning : Recursive Featuring Elimination
A titre d'exemple voici les 10 variables les plus importantes de mon échantillon (80% des 25000 matchs de ma base de données)
Par exemple (fenêtre de 60 jours glissants)
* Différence de buts (total, max , min et dispersion)
* Dispersion des notes FIFA
Stay tuned for more updates
J'ai eu un peu de retard, don't worry, j'essaie juste d'implémenter une variable booléenne "mèches blondes du numéro 7"
https://twitter.com/3rueStHonore/status/1115674324147560450?s=19
You can follow @QuantArtisan.
Tip: mention @twtextapp on a Twitter thread with the keyword “unroll” to get a link to it.

Latest Threads Unrolled: