Corpus et Outils en linguisitique, langues et parole

Corpus et Outils en Linguistique, Langues et Parole

3-5 juil. 2013 Strasbourg (France)

Description du colloque

Frais d'inscription réduits jusqu'au 14 juin 2013

Corpus et Outils en Linguistique, Langues et Parole :

Statuts, Usages et Mésusages

Colloque organisé par l’Unité de Recherche 1339

Linguistique, Langues, Parole (LiLPa)

Université de Strasbourg – Unistra

en collaboration avec

HERMAN PAUL SCHOOL of LINGUISTICS & ROMANISCHES SEMINAR

UNIVERSITÄT FREIBURG

COMPUTATIONAL LINGUISTICS AND PHONETICS

SAARLAND UNIVERSITY

SAARBRÜCKEN

LABORATOIRE LORRAIN DE RECHERCHE EN INFORMATIQUE ET SES APPLICATIONS

NANCY

3 – 5 juillet 2013

Strasbourg - France

Ce colloque international et interdisciplinaire s’intéresse aux travaux originaux et novateurs relatifs aux méthodes d’analyse de données empiriques, aux usages et aux statuts des données en Sciences du Langage. Il concerne tous les types de données provenant des sources variées (textes, documents sonores, multimédia, images, films, données du web, etc.) et l’ensemble des disciplines des sciences du langage, ainsi que d’autres disciplines scientifiques (par ex. les STIC, informatique, médecine, etc.) préoccupées par des problématiques résolument linguistiques. Il prend place parmi certaines préoccupations d’appels à projets « Corpus » de l’ANR[1]. La constitution ou l’élaboration de corpus, de bases de données, la mise au point et l’exploitation d’outils de traitement et d’analyse représentent, pour les différentes disciplines des sciences du langage, des étapes primordiales de leurs activités de recherche. Les outils, qu’ils soient conceptuels, électroniques ou numériques, peuvent permettre des percées théoriques et la modélisation de faits cognitifs habituellement complexes.

Dans le domaine des textes, le traitement et l’accessibilité accrus des œuvres et des diverses données écrites offrent de nouvelles perspectives d’analyse des variations synchroniques et diachroniques des manuscrits, des tournures syntaxiques ou des constantes sémantiques.

En ce qui concerne l’écrit, les corpus permettent, dans une optique didactique par exemple, l’étude des erreurs et de leurs conséquences sur les performances et les apprentissages scolaires ou sur l’apprentissage d’une nouvelle langue.

Dans le domaine des langues, des procédés permettent de décrire, de définir des typologies, de documenter et d’archiver des corpus de diverses langues afin d’étudier, dans une perspective linguistique ou sociolinguistique, leur genèse et leur évolution, en prenant en compte, par exemple, la distribution régionale des variantes.

De même, dans le traitement automatique des langues naturelles, par exemple, les corpus représentent des sources pour construire et alimenter des ressources telles que les lexiques ou les grammaires électroniques. Le développement d'outils d'annotation, automatique ou non, des données ou de requêtes, enrichissent les ressources et ouvrent des perspectives nouvelles pour l'exploitation de ces données.

En production et en perception de la parole, l’utilisation des techniques de représentation en 3D ou de simulation numérique contribue à l’interprétation des données recueillies de façon parcellaire.

La constitution de corpus structurés ouvre ainsi des voies d’exploration pour les recherches dans les différentes disciplines des sciences du langage, y compris en analyse des discours, en rendant lisibles des sources de tous types (écrites, orales, audiovisuelles, etc.) et en facilitant leur exploration systématique, quantitative ou qualitative.

La disponibilité de corpus variés, de grande taille et d’outils adéquats pour leur exploration implique un changement dans les usages qu'on peut faire de ces ressources. Un grand volume de données extrait de corpus nécessite des choix méthodologiques et pratiques. La méthodologie de travail doit s'adapter aux nouvelles conditions, pour faire face au volume plus important de données disponibles. Le colloque se propose donc d'apporter un nouvel éclairage des usages que l'on fait des corpus actuellement disponibles dans tous les domaines des sciences du langage.

Quel que soit le domaine concerné, la notion d’erreur ou de bruit (rapport signal/bruit) doit être correctement traitée, puisque celle-ci est inhérente aux corpus ou aux données que le chercheur est amené à manier. On ne saurait, en conséquence, faire l’économie de l’analyse et de la gestion de données langagières écrites (fautes de frappe, fautes d’orthographe ou de grammaire, phrases inachevées, traductions inadéquates, etc.) ou orales (disfluences, dysphonies, etc.) déviantes, lors de l’analyse de certains de nos corpus ou lors de la construction de certains de nos outils. Les outils d'analyse automatique apportent aussi un taux d'erreurs sans doute faible mais qui peut néanmoins influencer les résultats de l'analyse linguistique. Des problèmes méthodologiques se posent sur le traitement de ces erreurs lors de l'analyse et dans une optique de construction de ressources.

Outre les questions de constitution et de traitement, le recours aux corpus amène aujourd’hui à réfléchir à la nature des données (données iconiques, multimodales, pluricodiques, etc.), à leur emploi (corpus comme objet vs. corpus comme support) ou encore leur validité (extension, attestation, etc.).

Enfin, les statuts, usages et mésusages des corpus et des outils seront également examinés par la prise en compte des questions de protection de la confidentialité des données personnelles et de respect des droits. Il s’agira de traiter clairement ces sujets liés aux contraintes d’exploitation des bases et des corpus, en évoquant les problèmes juridiques afférant aux documents initiaux et enrichis, à la protection des personnes et des libertés publiques, à la protection de la propriété intellectuelle et commerciale, etc.

Les propositions de communication devront mettre en évidence, dans une des thématiques mentionnées ci-dessous :

1) soit l’étude d’une problématique relevant des sciences du langage, liée à l’analyse de corpus ou de données ;

2) soit une problématique permettant l'amélioration ou le développement de méthodes, d’outils et de procédures d'analyse nécessaires à l'exploitation scientifique de corpus ou d'ensembles de données dans un des domaines des sciences du langage ;

3) soit une réflexion sur les avantages et les limites des corpus et de leurs usages : les angles-morts d’un corpus, les questions restées en suspens après une exploration sur corpus, les réorientations nécessaires du questionnement après une constitution et exploration de corpus, le traitement des erreurs issues d’une annotation automatique. Dans cette optique, on pourra questionner les rapports entre intuition et travail empirique sur corpus, théorie et corpus, déduction et induction dans le rapport avec un corpus.

Dans tous les cas, la perspective adoptée par le colloque devra être respectée et explicitée.

Langues officielles du colloque : français et anglais

[1]. « Corpus, données et outils de la recherche en sciences humaines et sociales ».

Personnes connectées : 1

Flux RSS