Que peut-on apprendre de la distribution des mots dans un texte ? Cette question traduit l'une des préoccupations centrales de la statistique textuelle : tirer, de l’observation quantitative des mots, des enseignements permettant de mieux connaitre le ou les texte(s) qu’ils composent ou plus largement les langues auxquelles ils appartiennent... Lire la suite
Que peut-on apprendre de la distribution des mots dans un texte ?
Cette question traduit l'une des préoccupations centrales de la statistique textuelle : tirer, de l’observation quantitative des mots, des enseignements permettant de mieux connaitre le ou les texte(s) qu’ils composent ou plus largement les langues auxquelles ils appartiennent. Elle intéresse donc des disciplines variées qui prennent le texte comme objet d’étude, par exemple dans le cadre de l’analyse littéraire, de la stylométrie, de l’analyse du discours politique, de la linguistique de corpus, de la classification de documents, de la recherche d’information ou encore de la fouille de texte. Comme l’illustrent les nombreux articles de cet ouvrage, la statistique textuelle, stimulée non seulement par la croissance exponentielle du volume de textes accessibles sur support numérique, mais aussi par le développement rapide d’instruments originaux et de méthodes innovantes, comme le recours à l’Intelligence Artificielle, offre également de puissants outils pour faire face aux nouveaux besoins et défis de la société de l’information.
Après 16 éditions, organisées à Barcelone (1990), Montpellier (1993 et 2020), Rome (1995, 2010 et 2018), Nice (1998 et 2016), Lausanne (2000), Saint-Malo (2002), Louvain-la-Neuve (2004), Besançon (2006), Lyon (2008), Liège (2012), Paris (2014), Naples (2022), les Journées internationales d’analyse statistique des données textuelles (JADT) 2024, organisées à Bruxelles du 25 au 27 juin, ont réuni statisticiens, linguistes, sociologues, historiens, informaticiens, spécialistes d’analyse du discours, de lexicographie et d’exploration de données textuelles. Vingt ans après la publication des JADT 2004 dans cette même collection, ce nouveau volume des Cahiers du Cental présente, en deux tomes, un panorama représentatif des tendances de la recherche dans un domaine en permanente évolution.
Damon Mayaffre
L'ADN de l’ADT. Aux limites de l’interdisciplinarité
Ramon Alvarez Esteban, Monicá Bécue-Bertaut
Comparison of latent semantic analysis and correspondence analysis as
ordination methods in computational linguistics
Massimo Aria, Corrado Cuccurullo, Luca D’Aniello, Michelangelo
Misuraca, Maria Spano
Breaking Barriers with TALL: A Text Analysis Shiny app for All
Laura Aubry et Aylin Pamuksaç
La presse sportive comme terrain d’étude pour les inégalités liées au genre :
étude textométrique sur corpus
Yann Audin, Mathilde Verstraete, Dominic Forest, Marcello
Vitali-Rosati
Le projet Intelligence artificielle littéraire (IAL) : définir formellement le
concept de variation au sein de l'Anthologie grecque ?
Alessandra Belfiore, Maria Spano, Corrado Cuccurullo, Walter
Giordano
Beyond Text: Unveiling Corporate Communication Strategies Through Textual
Analysis of CEO Letters
Imen Ben Sassi, Hani Guenoune, Alexandre Bazin, Marianne Huchard,
Mathieu Lafourcade, Jean Sallantin
Dispositif d'apprentissage automatique collaboratif pour la pratique du débat
Yves Bestgen
Diversité lexicale et longueur du texte en évaluation du langage
Samuel Boccara, Salma Mesmoudi, Jacques Dayan, Robin Quillivic
Quantization of speech disorganization for PTSD and speech disorders
detection
Baptiste Bohet, Nicole Vincent
Analyse comparée et interprétation des résultats de trois classifications de
textes littéraires
Clara Bordier, Matej Martinc, Marceau Hernandez, Senja Pollak, Gaël
Lejeune
Plongée dans le lexique du Conspirationnisme dans la presse nationale
française
Aymeric Bouchereau, Jean-Marc Leblanc
Vœux présidentiels : un rituel discursif à l’épreuve de l’Intelligence artificielle
17 29
39 49 59
69
79
89 99
109 119
129
Pierre Bourhis, Aaron Boussidan, Céline Fournial, Philippe Gambette 139 Detecting semantic or structural similarities for theater play comparison
Thomas Buhler, Annabel Richeton 149 Les discours des plans d’urbanisme au crible de la textométrie
Retours réflexifs sur des travaux récents et perspectives d’analyses diachroniques multi-documentaires
Mots comptés, textes déchiffrés
933
Jaya Caporusso, Nishan Chatterjee, Zoran Fijavž, Boshko Koloski, Matej Ulčar, Matej Martinc, Andreja Vezovnik, Marko Robnik-
Šikonja, Matthew Purver, Senja Pollak
Analysing Bias in Slovenian News Media: A Computational Comparison Based on Readers’ Political Orientation
A Phenomenologically-Inspired Computational Analysis of Self-Categories in T ext
159
169
Jaya Caporusso, Boshko Koloski, Maša Rebernik, Senja Pollak,
Matthew Purver
Elena Catanese, Luca Valentino, Giorgia Sacco 179 A quantitative assessment of the impact of Valence Shifters and Emoji in
lexicon for Italian Sentiment Analysis
Luigi Celardo, Michelangelo Misuraca, Maria Spano 189 "See Naples, then dye": Spatial Categorisation of Tourist Attractions with
Reviews' Sentiment Scores
Nishan Chatterjee, Veronika Bajt, Ana Zwitter Vitez, Senja Pollak 199 The "Right" Discourse on Migration: Analysing Migration-Related Tweets in
Right and Far-Right Political Movements
Sarah Chatti 209 Le discours environnemental de la Banque mondiale à l’épreuve du temps
Xiyning Chen, Miroslav Kubát, Ján Mačutek
Directions of Dependency Structures in the Czech National Corpus SYN2020:
Application to Genre Classification
Rosario D’Agata, Gabriele Pocina
The godfather 'caught in net’. The social media story telling of Matteo Messina Denaro arrest
Extracting Knowledge from Scientific Literature with an Integrated Text Summarization Approach
Integrating Social Media Insights with Official Statistics for Enhanced Cultural Heritage Management
219 229 239
249
Luca D’Aniello, Massimo Aria, Corrado Cuccurullo, Michelangelo
Misuraca, Maria Spano
Barbara Dattilo, Paolo Di Domenico, Mariangela Sabato, Sandro
Stancampiano
Francesca della Ratta-Rinaldi, Daniele Di Nunzio 259 La polarizzazione crescente nel mondo del lavoro italiano: risposte alla
domanda aperta nell’Inchiesta nazionale su condizioni e aspettative di
lavoratori e lavoratrici
Bruno Delprat, Martine Cadot, Alain Lelu 269 Analyse textuelle de manuscrits mayas et égyptiens : apports d’un codage par
n-grammes, et de représentations multidimensionnelles graduées
Sabri Derinöz 279 Promouvoir ou dénoncer la diversité dans la presse belge francophone ? d’une
solution à un problème (re)configuré
Sami Diaf 289 Ambiguity in Central Banking Communication: A Strategic Vagueness Or A
Pure Randomness?
Mots comptés, textes déchiffrés
934
Sascha Diwersy, Hugo Dumoulin, Caroline Mellet, Cyrielle
Montrichard, Frédérique Sitri
La fac et son temps : Explorations textométriques d'un corpus diachronique de comptes rendus universitaires
Catherine Dominguès, Laurence Jolivet 309 Analyse textométrique et spatialisée des Cahiers citoyens
319
Which connective fits best: ‘car’ or ‘parce que’?A challenge for both humans and LLMs
Louis Escouflaire, Antonin Descampe, Antoine Venant, Cédrick Fairon 329 La subjectivité dans le journalisme québécois et belge : Transfert de connaissances inter-médias et inter-cultures
Antonella Fadda, Rémi Cardon, Natalia Grabar, Thomas François 339 Approaching Semantic Text Similarity with Hybrid Methods: a Case Study on
French
Matteo Farnè, Giulia Benelli 349 Fake news language analysis and detection via a text mining approach
Nathan Festini, Christine Jeoffrion 359 Analyse lexicométrique des supports de formation et d’accompagnement des
managers et comparaison avec le référentiel de compétences managériales
d’une grande collectivité territoriale française
Alessia Forciniti, Emma Zavarrone 369 Mapping the digital disruption landscape: a bibliometric analysis unveiling
trends and patterns in the era of technological transformation
Lyse Gathoye, Christophe Lejeune, Valentine Vanootighem 379 Caractériser les souvenirs désavoués : apports respectifs des dictionnaires et
des progressions thématiques
Sami Guembour, Catherine Dominguès 389 Désambiguïsation des mots polysémiques de la ville dans des romans de science-fiction
Daniel Henkel 399 Verbs of cognition in translation between English and French
Julie Humbert-Droz, Aurélie Picton 409 Révéler l’expertise partagée par les patientes atteintes de diabète et d’endométriose : une analyse exploratoire de forums médicaux
Domenica Fioredistella Iezzi, Roberto Monte 419 Building Deep-Learning Consumers' Sentiment Signals for Sales Forecasting:
A Comparative Study
429
Characterizing Misogyny in Italian Online Discourse: Consensus and Disagreement in a New Dataset of Social Media Comments
Loïc Jeanson, Guillaume Guex, Aris Xanthos 439 Lexical diversity measurement using subsample entropy: formalism and
evaluation
Mots comptés, textes déchiffrés
935
299
Louis Escouflaire, Joanna Blochowiak, Liesbeth Degand, Marie-
Catherine de Marneffe
Elisa Ignazzi, Mariona Coll, Emiliano Del Gobbo, Berta Chulvi, Paolo
Rosso, Lara Fontanella
Patrick Juola, George Mikros, Lise Menn, Jean Berko Gleason, Nan
Bernstein Ratner
Pseudo-Psycholinguistic Behavior of Large Language Models
Sylvia Kasparian, Lucie Loubere
Étude lexicométrique de la couverture médiatique des conflits du Haut Karabagh dans la presse française (2020-2023)
Rendre compte des séances de conseils municipaux : analyse comparative de productions françaises et suisses
449 459 473
Margareta Kastberg, Corinne Rossari, Laura Aubry, Virginie Lethier,
Cyrielle Montrichard
Imed Keraghel, Stanislas Morbieu, Mohamed Nadif 483 Évaluation des plongements textuels des LLMs pour la classification non
supervisée de documents
Mohamed Elamine Khoudour, Abdallah Benkadja, Ismaïl Biskri,
Nadia Ghazzali
Reconnaissance des caractères manuscrits au moyen d’approches hybrides
Analyse textuelle des structures d’enchaînement associatif liées aux représentations sociales du confinement et déconfinement de 2020 dans la région Grand-Nancéienne française
493 503
Marcel Kode, Martine Batt, Hélène Rousseau, Cédric Baumann,
Stéphanie Bourion-Bedes
Anaya Kumar, Anuragini Shirish, Jean Moscarola 513 Comparative Analysis: Classical exploratory methods vs Generative AI in
extracting value from user reviews
523
Développement automatique de lexiques pour les concepts émergents : une exploration méthodologique
Stéphane Lamassé, Fabrice Issac 533 Édition et analyse de textes mathématiques médiévaux
Valérie Lambert 543 Analyse quantitative et qualitative de reformulations orales et écrites à partir
d’un protocole mi-expérimental, mi-écologique
Ludovic Lebart 553 Des outils pour décrire certains corpus de poèmes et de chansons : les arbres
additifs simultanés
Marc Le Pouliquen, Olivier Greusard 563 Analyse textuelle d’articles académiques traitant de la diversité au-delà du
genre et de gouvernance d’entreprise
Lucie Loubere 573 Analyse de groupes Facebook, comparatif lexicométrique des données de
crowdtangle à celles accessibles par navigation
Véronique Magri, Laurent Vanni 583 Détection automatique de marqueurs de registres littéraires profonds
Mots comptés, textes déchiffrés
936
Revekka Kyriakoglou, Anna Pappa, Jilin He, Antoine Schoen, Patricia Laurens, Markarit Vartampetian, Philippe Laredo, Tita
Kyriacopoulou
Pascal Marchand, Pierre Ratinaud 593 Croiser ADT et NLP pour caractériser les commentaires en ligne et détecter
les tendances complotistes : le cas des vaccins
603
The Evolution of Bias in French News Media: How Does Political Orientation Affect Semantic Change?
Damon Mayaffre, Laurent Vanni 613 Usages linguistiques des éléments supplémentaires dans l’Analyse factorielle
des correspondances
Alessandro Meneghini, Arjuna Tuzzi 623 Leaving no one behind? Embeddings-based topic modelling and LLMs to
explore international cooperation projects implemented in Greece
Joanna Michalak 633 Methodological Approaches to Sentiment Classification and their impact on
Modelling the relationship between Twitter (X) and stock market
Andrea Micheletti, Nicola Orio, Elena Svalduz 643 The Travel Diary of Giovanni da San Foca Semi-Automatic Analysis of Textual
Data
Jean Moscarola 653 Coupler Analyse de données textuelles et IA génératives pour « augmenter » le
processus de recherche qualitative
Jean Moscarola, Zakari Chauhan 663 Humain Contre Robot : Différencier l’expression des IA génératives de celle
d’auteurs humains en utilisant l’Analyse de Données Textuelles
Matej Martinc, Adelie Laruncet, Clara Bordier, Marceau Hernandez,
Senja Pollak, Gaël Lejeune
Michaela Nogolová, Ján Mačutek, Miroslav Kubát
What can be heard in the Czech Parliament
Sandrine Ollinger, Denis Maurel
Segmentation en phrases : ouvrez les guillemets sans perdre le fil
Martial Pastor, Nelleke Oostdijk, Martha Larson
The Contribution of Coherence Relations to Understanding Paratactic Forms of Communication in Social Media Comment Sections
Bénédicte Pincemin
Specificities and other applications of the Fisher’s exact test to textual data: What’s the matter with lexical frequencies?
673 683 693
703
Sophie Piron 713 La masculinisation du français a-t-elle eu lieu ?
Le cas des noms d’êtres humains dans la lexicographie du XVIe au début du
XVIIIe siècle
Robin Quillivic, Charles Payet 723 Semi-Structured Interview Analysis: A French NLP Approach for Social
Sciences
Catherine Quiroga-Cortés, Jules Dilé-Toustou 733 Classification hiérarchique descendante : de l’exploration thématique à la compréhension de l’évolution du traitement médiatique des « écologistes »
Mots comptés, textes déchiffrés
937
Harry Ramadasse 743 Le cas Michelin : 114 401 réponses, 2 963 563 mots
Pierre Ratinaud, Brigitte Sebbah 753 Le dire ou l’écrire sur les réseaux sociaux numériques : comparaison des
messages écrits et des messages audios sur la chaîne Telegram des gilets
jaunes de Haute-Garonne
Wim Remysen, Myriam Paquet-Gauthier 763 La variation graphique intratextuelle dans les imprimés québécois, 1800-1939
Riccardo Ricciardi, Nicolò Biasetton 773 A language model to investigate the temporal transformation of semantics in
the literature on Made in Italy
Ilaria Rodella, Andrea Sciandra, Arjuna Tuzzi 783 Analysis of Marie Skłodowska-Curie Actions (MSCA) evaluations and models
for predicting the success of proposals
Vincent Roose, Sophie André 793 Les salles de consommation à moindre risque dans la presse francophone belge
: analyse textométrique à l'aide du logiciel Iramuteq
Corinne Rossari, Laura Aubry, Chloé Tahar 803 Assumer ou diluer les responsabilités énonciatives dans la diffusion du savoir encyclopédique
Jérémie Roux, Hani Guenoune, Mathieu Lafourcade, Richard Moot 813 Explication de métaphores via la résolution d’analogies à l’aide d’un graphe
de connaissances
Dario Sacco, Massimo Aria, Sara Moccia 823 Decoding Disinformation: A Comprehensive Analysis of Fake News
Eva Schaeffer-Lacroix 833 Adverbs as markers of women's objectification events in audio descriptions of
English feature films
843
Définition et évolution de la qualité de vie des patients traumatisés crâniens et de leurs proches : Une étude qualitative exploratoire
Kaori Sugiyama, Patrick Drouin 853 Analyse sociolinguistique outillée des débats parlementaires précédant la
formulation du projet de loi 96 du gouvernement du Québec
Ludovic Tanguy, Cécile Fabre, Nabil Hathout, Lydia-Mai Ho-Dac 863 Le sens de la famille : analyse du vocabulaire de la parenté par les
plongements de mots
Ludovic Tanguy, Céline Poudat, Lydia-Mai Ho-Dac 873 Message du troisième type : irruption d’un tiers dans un dialogue en ligne
Ameni Tlili 883 Analyse lexicométrique du dire-écrire des jeunes Tunisiens sur Facebook
avant, pendant et après la Révolution de 2011
Panos Tsimpoukis, Pierre Ratinaud, Nikos Smyrnaios 893 Évolution des fréquences et des cooccurrences des entités nommées dans les
discours de la presse sur l’intelligence artificielle (2012-2022)
Mots comptés, textes déchiffrés
938
Linda Simon, Myriam Blanchin, Philippe Tessier, Véronique Sébille,
Marianne Bourdon
Gian Piero Turchi, Christian Moro, Tommaso Arcelli, Luisa Orrù 903 A methodological proposal for evaluating productivity through textual
analysis: results from a simulated working environment case study
Jeanne Vermeirsche, Eric SanJuan , Tania Jiménez , Christèle Lagier 913 Analyse thématique comparative des discours politiques et de leur diffusion
dans le Wikipédia francophone
Jinyuan Xu, Pierre Magistry, Mathieu Valette 923 Détection des humeurs dépressives sur les réseaux sociaux chinois à partir
d’une combinaison de plongements lexicaux et de méthodes textométriques