Il y a une croyance bizarre qui persiste dans les SHS :

l'idée que les scientifiques ne font que quantifier et sont en PLS face à du qualitatif 😮

C'est complètement faux. J'enseigne les méthodes qualitatives en science. Elles sont très développées et banales.
Avant toute chose, un aveu. Je vous ai manipulé pour avoir votre attention en utilisant le terme SHS en ouverture. Twitter est obsédé par ça et j'ai donc joué là-dessus.

Je ne crois pas que la croyance que j'attaque ici est typique des SHS. C'est juste une croyance qui traine.
Nous autres, statisticiens, avons industrialisé la mise en équations du monde, si bien qu'on nous retrouve absolument partout : de la psychologie à la physique en passant par la logopédie et l'histoire.

C'est très excitant 🥰 Ca donne aussi le melon, je dois faire gaffe 😓
Il y a ici une dimension presque philosophique à ma discipline. Le postulat de base, c'est que notre monde, sans la moindre exception, est décomposable en variables. Les situations simples donneront peu de variables, les complexes des centaines. Mais rien ne peut nous échapper.
Imaginez que vous devez juger de la réussite scolaire d'un enfant. Vous décomposez ça en variables. Son milieu social, la posture de son prof, la position de son école, sa pression sanguine, sa note en maths, son niveau de bonheur sur une échelle de 0 à 10.
Les variables qui mesurent des quantités, comme un poids ou une pression sanguine, sont dites quantitatives.

Si vous jugez l'enfant via un rapport écrit sans aucune mesure quantitative, que vous déballez vos impressions en mode qualitatif pour chaque enfant, aucun souci !
Votre rapport sera alors décomposé en des variables dites qualitatives. Par exemple, votre impression de l'enfant en général : pas bien, bien, très bien. Sa taille : petite, moyenne ou grande. Son milieu social au doigt mouillé : aisé, moyen, défavorisé.
La magie de ma discipline, c'est qu'elle se fiche de comprendre les autres en profondeur. J'ai pas besoin de comprendre la physique pour aider un physicien. Le jeu, ce sera de s'asseoir à une table pour décomposer ensemble le problème en variables, qualitatives et quantitatives.
Ce travail fait, la machinerie statistique pour relier les variables se lance.

Elle sera la même peu importe que la variable mesure la masse d'une étoile ou la taille d'un enfant. Peu importe qu'on regarde la catégorie de couleur de l'étoile ou des cheveux d'un enfant.
L'approche, c'est de relier mathématiquement une variable cible d'intérêt (le taux de guérison, la réussite scolaire, le salaire des gens) à un ensemble d'autres. Le statisticien éliminera sur le chemin celles qui n'ont pas d'influence sur la variable cible.
Si la variable cible est quantitative, on va se retrouver souvent à faire de la régression linéaire ou de la régression dite de Poisson pour la relier aux autres.

Si la variable est qualitative, on la relie aux autres via de la régression logistique ou multinomiale (j'adore !)
Il y a plein de subtilités supplémentaires, mais en général ça marche ainsi.

Cela dit, les statisticiens ont depuis toujours voulu voir plus grand et plus haut.
En réalité, les modèles différents que je viens de citer et à utiliser selon le type de la variable cible, les statisticiens le savent, sont tous l'expression d'un *monstre* beaucoup plus large et général derrière.
Et c'est ici qu'on entre dans le sujet de ma thèse. Le Saint Graal en statistique, c'est d'ajuster une structure de dépendance générale entre toutes les variables (qualitatives et quantitatives) sans plus chercher à relier une variable cible particulière aux autres.
Ensuite, la structure, qu'on nomme une copule, pourra être repliée selon la variable cible qu'on cherche à modéliser en fonction des autres. En théorie on devrait alors retomber sur des modèles de régression linéaire, multinomial, etc, mentionnés plus haut.
Mais les modèles mathématiques de copules dans la littérature actuelle ne permettent pas de réaliser ce rêve, Ils sont trop rigides et manquent de flexibilité 😥
Il existe un type de copule, les copules de type "Vine" qui réussissent presque le pari.
https://www.groups.ma.tum.de/fileadmin/w00ccg/statistics/veranstaltungen/Vines.pdf

Ma thèse, c'était d'essayer de faire de mieux. J'ai trouvé une piste intéressante mais j'ai pas réussi à la faire aboutir 😅
Mon idée était d'avoir une copule qui pouvait s'imbriquer dans elle-même, de sorte qu'on pouvait augmenté à l'infini son degré de complexité selon les besoins.
Je pense encore que j'étais peut-être sur quelque chose, mais la pression de ces équations sur les processeurs était trop forte et j'ai échoué à optimiser le pâté avant la fin de ma thèse 😐 J'ai jamais pu tester si ce que j'ai créé est du génie ou de la merde en pratique.
Vous allez me dire "Pourquoi tu as pas continué ?" Bah, ma chaine avait décollé, je m'éclatais dans l'enseignement et ces problèmes d'optimisation de code me gonflaient (pas été formé pour ça).
Aussi : j'ai sans doute peur de découvrir que j'ai créé de la merde 😆
Le fantasme en statistique, c'est un modèle de copule pour tout dominer. Vous décomposez le monde en variables. Vous laissez cette copule magique s'ajuster sur les variables avec la complexité nécessaire. Puis vous n'avez plus qu'à poser des questions.
Du genre : quelle est l'influence de tel médicament sur le taux de guérison ? De telle méthode sur l'apprentissage mesuré via la variable qualitative X53 ?

La copule vous répondra. Il "suffit" de la replier sur elle-même selon le bon angle pour avoir la réponse.
Je n'exclus pas que dans le futur, les statisticiens seront mis au chômage par leur propre création 🤭 La partie de décomposition de la réalité en variables restant tendue, on aura selon moi toujours besoin d'eux au moins pour ça !
À tous ceux et celles qui me diront "Tu as oublié de dire que", "Tu aurais pu mentionner que", oui ce thread est évidemment incomplet. Il y a tellement à dire ! Vous pouvez bien sûr tenter de faire mieux, n'oubliez pas aussi qu'il faut donner envie de lire aux gens 😁
You can follow @ChatSceptique.
Tip: mention @twtextapp on a Twitter thread with the keyword “unroll” to get a link to it.

Latest Threads Unrolled: