La journée de @AFLApplique, c'est aujourd'hui! Petit #livethread sur la #linguistique appliquée! ⬇️⬇️⬇️
Et on commence par Julien Longhi @jlonghi1 (AGORA & IDHN - Université de Cergy-Pontoise, Institut Universitaire de France) : “Outiller” l’expertise en analyse du discours
politique: méthodes, concepts, ressources.
L'objectif de ses projets est de démocratiser des outils pour analyser le discours politique en temps réel (notamment via twitter ^^):
http://ideo2017.ensea.fr/ 
Ce genre d'outils permet d'obtenir des données chiffrées, quantitatives, avec les estimations de co-occurrences... (ce qui est plus fiable que le doigt mouillé, quand-même!)
Ce type d'outils n'est pas intéressant que pour ses applications en journalisme ou sociologie / sciences politiques, mais aussi pour le recherche, notamment en #TAL parce que ça procure de grandes quantités de données exploitables pour les technologies du langage.
Et on finit avec Dominique Boutet (DYLIS - Université de Rouen Normandie) : Extraction automatique de shrugs : de la requête au formalisme dans un corpus multimodal.
D. Boutet est spécialiste de langues des signes et de multimodalité (càd les modalités de communication linguistique: oral, écrit, gestuel, etc.).
Et on enchaîne avec Guillaume Desagulier (MoDyCo - Univ. Paris 8, CNRS, Université Paris Nanterre, Institut Universitaire de France) : Deux outils pour l’étude #sociolinguistique de l’ #anglais contemporain et ses prolongements #sociologiques : BNC.query() et BNC.2014.query().
G. Desagulier se demande si on peut comparer des #corpus. La question n'est pas évidente: un corpus, c'est un échantillon, et du coup la question c'est "est-ce qu'on peut comparer des échantillons?"...
Les corpus en linguistique peuvent représenter différents types de parole: différentes variétés linguistiques (ici d'anglais), de l'écrit vs de l'oral, de la parole féminine vs masculine, de la parole formelle vs informelle, etc...
Or c très long et coûteux de créer des corpus: non slmt il faut faire transcrire le texte par des humains, mais en plus il faut entrer ttes ces métadonnées (annotation grammaticale, âge, genre, type de parole...). Plus les métadonnées sont fines, plus c'est utile en recherche.
Le pb que ça pose, c'est l'enseignement aux étudiant/es: il faut leur apprendre non seulement à coder (les corpus peuvent être en XML ou autre) mais aussi à appliquer des méthodes statistiques pour les explorer (genre sur R).
Après on a eu une petite démo, qui montre qu'on a une différence statistiquement significative entre les 18-29 ans qui préfèrent dire "Hi" que les autres qui disent plutôt "Hello" (dans le corpus étudié).
L'une des différences les plus souvent observées, c'est la différence hommes vs femmes, car la variation liée au genre est déjà largement attestée, donc c'est intéressant de voir jusqu'où elle s'étend.
Il y a 3 ans, une étudiante a regardé les jurons entre discours des hommes et des femmes. Elle a trouvé que les femmes jurent autant que les hommes mais avec des mots moins forts (gosh, bloody vs fuck).
Ce qui est intéressant, c que la tendance pour "gosh" s'est inversée entre le corpus des 90s et celui de 2014. Mais peut-on vraiment comparer des corpus en diachronie?
C tte la question de la représentativité des données, même ds des corpus reconnus dans le milieu universitaire.
You can follow @EllesLinguistes.
Tip: mention @twtextapp on a Twitter thread with the keyword “unroll” to get a link to it.

Latest Threads Unrolled: