Page web de Benoît Sagot  —  équipe Alpage (INRIA / Paris 7)

En
Le WOLF (Wordnet Libre du Français) est une ressource lexicale sémantique (wordnet) libre pour le français.

Le WOLF a été construit à partir du Princeton WordNet (PWN) et de diverses ressources multilingues (Sagot et Fišer 2008a, Sagot et Fišer 2008b, Fišer et Sagot 2008). Les lexèmes polysémiques ont été traités au moyen d'une approche reposant sur l'alignement en mots d'un corpus parallèle en cinq langues. Le lexique multilingue extrait a été désambiguïsé sémantiquement à l'aide des wordnets des langues concernées. Par ailleurs, une approche bilingue a été suffisante pour construire de nouvelles entrées à l'aide des mots monosémiques. Nous avons pour cela extrait des lexiques bilingues à partir de Wikipedia et de thésaurus. Le wordnet obtenu a été évalué par rapport au wordnet français issu du projet EuroWordNet.

En 2009, un travail spécifique a été effectué sur les synsets adverbiaux (Sagot, Fort et Venant 2009a, Sagot, Fort et Venant 2009b).

Depuis, plusieurs travaux ont permis de compléter le WOLF et d'en diminuer le bruit. Tout d'abord, une technique de désambiguisation de traductions extraites de ressources libres a permis de construire la version 0.2 (Sagot et Fišer 2011, 2012a). Deux approches plus spécifiques ont tiré parti de l'extraction de nominalisations à partir de corpus analysés syntaxiquement (version 0.2.1, Gábor et al. 2012) et de clusters induits à partir de corpus bilingues (version 0.2.2, Apidianaki et Sagot, 2012). La version 0.2.5 est le résultat de la fusion du WOLF 0.2.2 et d'un wordnet extrait automatiquement par une nouvelle approche à base de graphes de traductions extraites de wiktionnaires (Hanoka et Sagot 2012).

Une approche d'identification automatique d'erreurs a été également développée (Sagot et Fišer, 2012b), et une validation manuelle de plusieurs milliers de candidats erreurs a été réalisée et prise en compte. En parallèle, une validation et complétion manuelle de la plupart des synsets verbaux faisant partie des synsets de base (Basic Concept Sets du projet BalkaNet) a été effectuée. Enfin, un nettoyage manuel d'un nombre important de couples (lemme, synsets) dont la catégorie ne correspondait pas aux catégories connues du lexique Lefff a permis une diminution supplémentaire du bruit. Le résultat de ces travaux semi-manuels est la version 1.0b4.

Le WOLF contient tous les synsets du Princetown WordNet, y compris ceux pour lesquels aucun lexème français n'est connu.

Le WOLF est au format XML utilisé par l'outil DebVisDic, issu du format XML utilisé par le projet BalkaNet. Pour l'instant, les éléments SENSE sont remplis par des informations sur les sources par lesquelles le lexème a été trouvé, et non par son numéro de sens. Parmi elles, une étiquette commençant par "ManVal" indique un couple (synset, lemme) validé manuellement, et une étiquette commençant par "ManAdd" un couple ajouté manuellement.

Le WOLF est une ressource libre, distribuée sous licence Cecill-C (compatible LGPL).

Téléchargement

Dernière version distribuée (1.0b4)