Equipe-projet Alpage: Séminaire Alpage
The topic of the talk is a proof-of-concept machine translation demonstrator translating tourism-related texts from Norwegian into English. The system is developed within a project called LOGON (http://www.emmtee.net/) in cooperation between groups at the universities of Bergen, Oslo and Trondheim. It is a hybrid transfer system in which the backbone is rule-based, with statistical processing interspersed. The Norwegian analysis is performed by a comprehensive Norwegian Lexical-Functional grammar developed on the Xerox Linguistic Environment (XLE) platform, in conjunction with morphological analysis and other modules. The grammar is augmented with a Minimal Recursion Semantics (MRS) component, whose representations are the input to transfer. An unusual feature of the system is that it combines two grammatical models: the English target grammar is the English Resource Grammar (ERG), which is based on the HPSG framework. Statistical processing is responsible for parse selection, ranking of transfer outputs, and ranking of generator outputs.
The presentation will focus on the analysis component of the system, including LFG grammar development, the development of the MRS component, and the development of a treebank tool called a 'Parse Banker', which is a discriminant-based system for selecting the desired analysis efficiently in treebank construction. The Parse Banker was used to produce training material for the derivation of the statistical model for parse selection.
One of the main difficulties in statistical parsing is associated with the task of choosing the correct parse tree for the input sentence. While this difficulty is usually evaluated by means of empirical performance measures, such as labeled precision and recall, several theoretical measures have also been proposed in the literature, mostly based on the notion of cross-entropy of a treebank. We show how cross-entropy can be misleading to this end, and propose an alternative theoretical measure, called the expected conditional cross-entropy (ECC).
We conjecture that the ECC provides a measure of the informativeness of a treebank, in such a way that more informative treebanks are easier to parse under the chosen model. We test our conjecture by comparing ECC values against standard performance measures across several treebanks for English, French, German and Italian, as well as other treebanks with different degrees of ambiguity and informativeness, obtained by means of artificial transformations of a source treebank. All of our experiments show the effectiveness of the ECC in characterizing parsing difficulty across different treebanks, making it possible treebank comparison.
Work done in collaboration with: Anna Corazza, Alberto Lavelli.
The aim of this talk is to investigate the enterprise of exploiting lexical semantic knowledge for discourse purposes. In the first part of the paper, I demonstrate that event-based approaches are unable to explain the ambiguous behavior of a whole class of verbs, those called lexical causative verbs in linguistics. Danlos (2000) Asher and Lascarides (2003) present a promising account of lexicalized causation that shows the dependence of verbs on the discourse context and the dependence of discourse inference on lexical knowledge. In the second part of the talk, I use the main tools of Segmented Discourse Representation Theory (henceforth SDRT) to deal with the phenomena, improve SDRT's strategy to deal with lexical knowledge and avoid the previous pitfalls of the usual event-based theories. There are a lot of benefits out of the construction of an interface between both levels of linguistic analysis, namely lexical semantics and discourse semantics and these ideas can also very well be exploited for a system of discourse inference.
Josef van Genabith, National Centre for Language Technology NCLT, Dublin City University, Ireland:
Hand-crafting wide-coverage deep linguistic resources is time-consuming, expensive and hard to scale to unrestricted text. In this talk I present research on automatically acquiring wide-coverage, probabilistic Lexical-Functional Grammar resources from treebanks, concentrating on English.
I show how these resources can be used in a number of applications including parsing, generation, lexicon acquisition and MT evaluation. I compare the treebank-based LFG parsing systems against hand-crafted resources (XLE and RASP) and automatically acquired HPSG and CCG parsers and sketch some future work.
This is joint work with Aoife Cahill, Grzegorz Chrupala, Jennifer Foster, Conor Cafferkey, Deirdre Hogan, Yvette Graham, Karolina Owczarzak, Yuqing Guo, Ines Rehbein and Natalie Schluter.
Erhard W. Hinrichs (Eberhard-Karls University Tuebingen):
In this talk I will give an overview of two independently developed treebanks for German: the TüBa-D/Z treebank and the Negra/TIGER treebank. I will present the differences in annotation schemes used in the two treebanks and will discuss the ramifications that these differences have for statistical parsing.
Apart from syntactic annotation, the TüBa-D/Z also contains a level of co-reference annotation. I will present some supervised learning results that use the TüBa-D/Z coreference corpus as training material.
Piet Mertens (KU Leuven):
L'analyseur syntaxique qui sera présenté vise à identifier le réseau de dépendance d'un énoncé. Dans ce réseau chaque élément lexical, en tant que dépendant, est relié à un autre élément, sa tête, par une relation de dépendance étiquetée. Seule la racine du réseau n'a pas de tête. La valence d'un verbe donné (sa sous-catégorisation) correspond au sous-ensemble de ses dépendants qui lui sont propres en tant l'élément particulier du lexique. Le même verbe peut régir d'autres dépendants non valenciels, tels que des circonstants de temps, de lieu ou de manière, qui peuvent s'adjoindre à tout verbe principal. Certains adjectifs et noms présentent également des dépendants valenciels.
A chaque forme fléchie correspond un arbre de dépendance élémentaire. Celui-ci comporte des noeuds pour l'ancre lexicale, pour la tête attendue et pour les dépendants valenciels éventuels, ainsi que des relations de dépendance explicitées. Pour chaque noeud on peut spécifier des traits (morphologiques, syntaxiques, éventuellement sémantiques) et la saturation. Pour les dépendants valenciels on précise en outre le caractère obligatoire ou facultatif.
Le processus d'analyse repose sur plusieurs mécanismes de dérivation.
Ces mécanismes dérivationnels sont mis en oeuvre dans un analyseur chart, ce qui permet entre autres de récupérer les analyses partielles en l'absence d'analyse complète.
Le traitement séparé de l'ordre des mots évite la multiplication d'arbres élémentaires inhérente aux grammaires syntagmatiques et à la grammaire TAG.
Le système intègre un analyseur morphologique (avec lemmatisation), éliminant ainsi les lexiques de formes fléchies. Les informations nécessaires à la formation d'arbres élémentaires à partir du lemme sont tirées de ressources lexicales. Pour les verbes, on utilise Dicovalence. Un infinitif présentant plusieurs schémas de valence génère autant d'arbres élémentaires différents, ce qui donne lieu à autant d'hypothèses à vérifier en parallèle.
Didier Bourigault (ERSS-CNRS Toulouse):
Nous présentons les recherches en ingénierie linguistique menées autour de la réalisation, l'évaluation et l'utilisation du logiciel Syntex, un analyseur syntaxique automatique du français. Nous présentons les concepts clés qui ont guidé la conception de l'analyseur Syntex. L'analyse syntaxique automatique est présentée comme un problème de reconnaissance de formes, représentées par des structures de dépendance syntaxique. Syntex est un analyseur procédural à cascades. Sur le plan épistémologique, il peut être caractérisé comme un objet technique, au sens de la philosophie des techniques de G. Simondon.
Philippe Langlais (RALI IRO Montreal):
La présence de mots inconnus dans les applications langagières représente un défi de taille bien connu auquel n'échappe pas la traduction automatique. Les systèmes professionnels de traduction offrent à cet effet à leurs utilisateurs la possibilité d'enrichir un lexique de base avec de nouvelles entrées. Récemment, Stroppa et Yvon (2005) et (2006) démontraient l'intérêt du raisonnement par analogie pour l'analyse morphologique d'une langue. Dans l'étude présentée ici, nous montrons que le raisonnement par analogie offre également une réponse adaptée au problème de la traduction d'entités (mots ou séquences de mots) inconnues.
Natalie Schluter (NCLT Dublin):
In this talk, I put into question the role of lexicalisation in the parsing of French, in the wake of a restructured and corrected French Treebank. I also present my work on the automatic acquisition of probabilistic LFG resources for French.
Dans ce séminaire, je remettrai en question le rôle de la lexicalisation dans l'analyse automatique du français à la lumière d'un corpus arboré français, restructuré et corrigé. Aussi, je présenterai mon travail sur l'acquisition automatique de resources probabilistes dans le cadre de LFG pour le français.
David Reitter (ICCS/HCRC Edinburgh):
Structural priming is the tendency to repeat syntactic material in the comprehension or production of language. For instance, speakers have been shown to re-use the structure of a verbal complement after a prime, e.g., either "gave Vera the book" vs. "gave the book to Vera" (e.g., Bock 1986, Pickering and Branigan 1989). I present a series of corpus-based studies that exploit syntactic priming effects as evidence for structural analyses. Using two statistical methods, I demonstrate a short-term and a long-term form of priming.
Language production has been shown to vary in its incrementality. On a syntactic level, Combinatory Categorial Grammar (CCG, Steedman 2000) provides a computational, symbolic account of syntax allowing incremental and non-incremental derivations. Syntactic priming can provide us with tests of the flexible constituent structure that CCG predicts. For instance, we can test for structure that varies in its incrementality and, and for combinatory subcategorization and linearization information. Using the notion of "distituents" from the unsupervised-parsing literature, we can show that priming actually acts on structural representations and not just on arbitrary n-grams. The above work has led to a cognitive model of (basic) sentence realization in the ACT-R framework, based on combinatory grammar, which explains priming as a form of learning.
Laurence Danlos (Alpage INRIA et Université Paris 7):
We propose a new formalism for discourse, called D-STAG, which is inspired, on the one hand, by RST and SDRT as discourse theories, on the other hand, by D-LTAG as a formalism which extends a sentential TAG syntax/semantic interface to the discourse level.