Page web de Benoît Sagot  —  équipe Alpage (INRIA / Paris 7)

En
Le Lefff (Lexique des Formes Fléchies du Français) est un lexique morphologique et syntaxique à large couverture, distribué sous licence libre LGPL-LR (Lesser General Public License For Linguistic Resources).

Référence principale: Sagot (2010). The Lefff, a freely available and large-coverage morphological and syntactic lexicon for French. In Proceedings of the 7th international conference on Language Resources and Evaluation (LREC 2010), Istanbul, Turkey

Le Lefff est développé au sein de l'architecture Alexina (Architecture pour les LEXiques INformatiques et leur Acquisition), en parallèle à d'autres lexiques utilisant le même format, utilisés en TAL et/ou en linguistique quantitative. Cette architecture est à deux niveaux :
  • lexique intensionnel, qui décrit pour chaque entrée lexicale son lemme (forme canonique + table de flexion) et des informations de syntaxe profonde (cadre de sous-catégorisation en fonctions syntaxiques profondes et réalisations possibles + constructions/reformulations/diathèses admissibles)
  • lexique extensionnel, compilé automatiquement à partir du lexique intensionnel ; ce processus de génération comporte une phase de flexion, en fonction de la classe morphologique associée à l’entrée intensionnelle, puis une phase de construction de la structure syntaxique associée à chacune des formes fléchie obtenues (les informations syntaxiques variant d’une forme à une autre, en particulier pour les formes infinitives et participiales, et en fonction de chaque construction associée à l'entrée).
Les informations lexicales présentes dans le Lefff sont issues de divers travaux :
  • acquisition automatique (avec validation manuelle) à l'aide de techniques statistiques appliquées sur des corpus bruts (Clément, Sagot et Lang 2004, Sagot 2005),
  • acquisition automatique (avec validation manuelle) d'informations syntaxiques atomiques (cf thèse de Sagot, 2006, ch 7)
  • correction et ajout manuel ou guidé par des techniques automatiques, comme par exemple la fouille d'erreurs dans les sorties d'analyseurs syntaxiques (Sagot et de La Clergerie, 2006),
  • comparaison avec d'autres ressources, et notamment les Tables du Lexique-Grammaire: constructions impersonnelles, adverbes en -ment, quelques classes d'expressions verbales figées (Sagot et Danlos 2006, Danlos et Sagot 2007, Sagot et Danlos 2007, Sagot et Fort 2007) ; par ailleurs, un certain nombre des noms et adjectifs viennent initialement du lexique morphologique Multext pour le français (Véronis 1998).

Téléchargement

Dernière version distribuée (3.2)
Les anciennes versions sont téléchargeables sur la page "fichiers" du projet Alexina.