Page web de Benoît Sagot  —  équipe Alpage (INRIA / Paris 7)

En
Le WOLF (Wordnet Libre du Français) est une ressource lexicale sémantique (wordnet) libre pour le français.

Le WOLF a été construit à partir du Princeton WordNet (PWN) et de diverses ressources multilingues (Sagot et Fišer 2008a, Sagot et Fišer 2008b, Fišer et Sagot 2008). Les lexèmes polysémiques ont été traités au moyen d'une approche reposant sur l'alignement en mots d'un corpus parallèle en cinq langues. Le lexique multilingue extrait a été désambiguïsé sémantiquement à l'aide des wordnets des langues concernées. Par ailleurs, une approche bilingue a été suffisante pour construire de nouvelles entrées à l'aide des mots monosémiques. Nous avons pour cela extrait des lexiques bilingues à partir de Wikipedia et de thésaurus. Le wordnet obtenu a été évalué par rapport au wordnet français issu du projet EuroWordNet.

En 2009, un travail spécifique a été effectué sur les synsets adverbiaux (Sagot, Fort et Venant 2009a, Sagot, Fort et Venant 2009b)

De nombreux enrichissements ont été apportés depuis, notamment en 2012, y compris une validation manuelle partielle, donnant ainsi naissance aux versions 1.0b et ultérieures (plus d'infos ici sous peu).

Le WOLF contient tous les synsets du Princetown WordNet, y compris ceux pour lesquels aucun lexème français n'est connu.

La dernière version du WOLF (1.0b et ultérieures) utilise la version la plus récente du format XML utilisé par l'outil DebVisDic, et repose sur les identifiants de synset du PWN 3.0 (et non du PWN 2.0 comme dans les versions précédentes).

Le WOLF est une ressource libre, distribuée sous licence Cecill-C (compatible LGPL).

Téléchargement

Dernière version distribuée (1.0b4)