Que peut-on apprendre de la distribution des mots dans un texte ? Cette question traduit l'une des préoccupations centrales de la statistique textuelle : tirer de l'observation quantitative des mots (observation de leur présence, absence, co-occurrence ou répartition) des enseignements permettant de mieux connaître le ou les texte(s) qu'ils composent ou plus largement les langues auxquelles ils appartiennent.
La statistique des données textuelles intéresse donc des disciplines scientifiques variées qui prennent le texte comme objet d'étude, par exemple dans le cadre de l'analyse littéraire, de la stylométrie, de l'analyse du discours politique, de la linguistique de corpus, de la classification de documents, de la recherche d'information ou encore de la fouille de texte ou text mining. Comme l'illustrent de nombreux articles de cet ouvrage, la statistique textuelle, stimulée par la croissance rapide du volume de textes accessibles sur support numérique (courrier électronique, chat, forum, Web, SMS, etc.), offre également de puissants outils pour faire face aux nouveaux besoins et défis de la société de l'information.
Les Journées internationales d'analyse des données textuelles (JADT) permettent à des chercheurs travaillant dans les différents domaines concernés par les traitements automatiques et statistiques de données textuelles de se rencontrer tous les deux ans afin de confronter leurs expériences. Après les rencontres de Barcelone (1990), Montpellier (1993), Rome (1995), Nice (1998), Lausanne (2000), et St Malo (2002), les JADT 2004 de Louvain-la-Neuve ont réuni, du 10 au 12 mars 2004, statisticiens, linguistes, sociologues, spécialistes d'analyse du discours, informaticiens, spécialistes de lexicographie et d'explorations de données textuelles.
VOLUME 1
Keynote speakers
Douglas BIBER : Conversation text types: A multi-dimensional analysis 15
Claudia LEACOCK : Statistical Analysis of Text in Educational Measurement 35
Communications / Papers / Posters
Ramón ÁLVAREZ, Mónica BÉCUE, Olga VALENCIA : Étude de la stabilité des valeurs propres de l'AFC d'un tableau lexical au moyen de procédures de rééchantillonage 42
Silvano AMATO, Emilio DI MEGLIO, Maria GUERRA : Text Retrieval with External Information 52
Roxana ANGHELUTA, Patrick JEUNIAUX, Rudradeb MITRA, Marie-Francine MOENS : Clustering Algorithms for Noun Phrase Coreference Resolution 60
Mappillairaju BAGAVANDAS, G. MANIMANNAM : Quantification Of Stylistic Traits: A Statistical Approach 71
Simona BALBI, Emilio DI MEGLIO : A Text Mining Strategy based on Local Contexts of Words 79
Ana-Maria BARBU : Simple linguistic methods for improving a word alignment algorithm 88
Silvia BARTOLETTI, Alessandra GARBERO, Silvia MONTECOLLE, Ferdinando NISCO, Emanuela RECCHINI, Irene SALERNO : Gli sbarchi dei clandestini nei quotidiani: un'analisi testuale esplorativa 99
Valérie BEAUDOUIN, François YVON : Contribution de la métrique à la stylométrie 107
Mónica BECUE, Jérôme PAGES, Campo-Elias PARDO : Analysis of multilingual free responses 119
Luc BELANGER, Guy LAPALME : Identification de questions pour traiter les courriels par une méthode question-réponse 128
Jean-Guy BERGERON, Dominique LABBE : Analyser les entretiens sociologiques 136
Charles BERNET : Hasards de la rime 148
Anne BERRY, Bangaly KABA, Mohamed NADIF, Eric SANJUAN, Alain SIGAYRET : Classification et désarticulation de graphes de termes 160
Yves BESTGEN : Analyse sémantique latente et segmentation automatique de textes 171
Yves BESTGEN, Cédrick FAIRON, Laurent KERVES : Un baromètre affectif effectif. Corpus de référence et méthode pour déterminer la valence affective de phrases 182
Ismaïl BISKRI, Jean-Guy MEUNIER, Sylvain JOYAL : L'extraction des termes complexes : une approche modulaire semi-automatique 192
Sergio BOLASCO, Francesca DELLA RATTA ' RINALDI : Experiments on semantic categorisation of texts: analysis of positive and negative dimension 202
Mathieu BRUGIDOU, Nadine MANDRAN, Michel MOINE, Annie-Claude SALOMON : Les apports de l'analyse textuelle pour l'analyse électorale : les questions ouvertes du panel électoral de 2002 211
Sylviane BURNER : Le rapport à l'autre dans la psychose bipolaire 221
Carmela CAPPELLI, Angela D'ELIA : La percezione della sinonimia: un'analisi statistica mediante moelli per ranghi 229
Simona CARBONE, Maria LONGOBARDI : Gli aggettivi delle rappresentazioni di genere in adolescenza 241
Renzo CARLI, Francesca DOLCETTI, Nadia BATTISTI : L'analisi emozionale del testo (AET): un caso di verifica nella formazione professionale 250
Antonio CHIRUMBOLO, Alessandra ARENI : Linguaggio, ideologia e categorizzazione sociale: n'analisi psicologico sociale del documento di rivendicazione dell'attentato a Marco Biagi 262
Marie-Catherine de MARNEFFE, Pierre DUPONT : Comparative study of statistical word sense discrimination techniques 270
Anne DE ROECK, Avik SARKAR, Paul H. GARTHWAITE : Defeating the Homogeneity Assumption 282
Jean-Claude DEROUBAIX : Que faire des corpus multilingues parallèles ' Une expérience 295
Guy DEVILLE, Laurence DUMORTIER, Hans PAULUSSEN : Génération de corpus multilingues dans la mise en oeuvre d'un outil en ligne d'aide à la lecture de textes en langue étrangère 304
Anne DISTER : La féminisation des noms de métier, fonction, grade ou titre en Belgique francophone. État des lieux dans un corpus de presse 313
Hai DOAN-NGUYEN, Leila KOSSEIM : Amélioration de la précision dans un système de question-réponse de domaine fermé 325
Antoine DOUCET : Utilisation de séquences fréquentes maximales en recherche d'information 334
Patrick DROUIN : Spécificités lexicales et acquisition de la terminologie 345
Jules DUCHASTEL, François DAOUST, Dimitri DELLA FAILLE : SATO-XML : une plateforme Internet ouverte pour l'analyse de texte assistée par ordinateur 353
Jules DUCHASTEL, Francis J. LACOSTE, François PIZARRO NOËL :
Une stratégie intégrée de recherche en sciences humaines dans le Portail ATO-MCD 364
Anne DUFRESNE :
Le discours de la BCE concernant les aspects sociaux 373
Vincent J. DURIAU, Rhonda K. REGER : Choice of Text Analysis Software in Organization Research: Insight from a Multi-dimensional Scaling (MDS) Analysis 382
Louisette EMIRKANIAN, Christophe FOUQUERE, Fabrice ISSAC : Corpus issus du Web : analyse des pertinences thématique et informationnelle 390
Frédéric ERLOS : Référentiels terminologiques adaptables au contexte. L'exemple d'un système de recherche d'informations dans une grande entreprise 399
Stefan EVERT : A simple LNRE Model for Random Character Sequences 411
Cédrick FAIRON, Ngoc-Diep HO : Quantité d'information échangée : une nouvelle mesure de la similarité des mots 423
Dominic FOREST, Jean-Guy MEUNIER : Classification et catégorisation automatiques : application à l'analyse thématique des données textuelles 434
François FOUSS, Jean-Michel RENDERS, Marco SAERENS : Some relationships between Kleinberg's hubs and authorities, correspondence analysis, and the Salsa algorithm 445
Itsuko FUJIMURA, Mitsumi UCHIDA, Hiroshi NAKAO : De vs des devant les noms précédés d'épithète en français : le problème de petit 456
Jean-Gabriel GANASCIA, Irène FENOGLIO, Jean-Louis LEBRAVE : EDITE MEDITE : un logiciel de comparaison de versions 468
Claire GELINAS-CHEBAT, François DAOUST, Monique DUFRESNE, Karine GALLOPEL,
Marie Élaine LEBEL : Analyse exploratoire d'entrevues de groupe : les jeunes Français et le tabac 479
Raphaël GERARD, Bastien KINDT : D'un dictionnaire de lemmatisation (D.A.G.) à un dictionnaire dérivationnel du grec ancien (D.D.G.) 488
Gaëtanelle GILQUIN, Eric LECOUTRE : (How) can causative constructions be predicted' 496
Luca GIULIANO : Il lessico della guerra nei newsgroup della categoria it.politica durante la guerra in Iraq 504
Cyril GOUTTE, Eric GAUSSIER, Nicola CANCEDDA, Hervé DEJEAN : Generative vs Discriminative Approaches to Entity Recognition from Label-Deficient Data 515
Maria Gabriella GRASSIA, Michelangelo MISURACA, Germana SCEPI : Relazioni non Simmetriche tra Corpora 524
Edel P. GREEVY, Alan F. SMEATON : Text Categorisation of Racist Texts Using a Support Vector Machine 533
Gaston GROSS : Réflexions sur le traitement automatique des langues 545
Patricia GUILPIN, Christian GUILPIN : Nouvelle méthode d'analyse statistique de la fréquence d'apparition d'un mot particulier (études synchroniques et diachroniques) 557
Benoît HABERT, Gabriel ILLOUZ, Helka FOLCH : Dégrouper les sens : pourquoi, comment ' 565
Serge HEIDEN : Interface hypertextuelle à un espace de cooccurrences : implémentation dans Weblex 577
Fidelia IBEKWE-SANJUAN, Eric SANJUAN : Mapping the structure of research topics through term variant clustering : the TermWatch system 589
Angel IGELMO, Gabriel M. JORDA, Carlota VICENS : El análisis estadístico para el estudio de los campos estilísticos en una obra literaria 601