Pour les utilisateurs enregistrés (cf. FAQ, Comment créer un nouveau compte?), il est possible de soumettre des corpus de textes à l'analyseur syntaxique FRMG. La taille des corpus est pour l'instant limitée à 1 million de mots. Au dessus de cette taille, nous vous proposons de nous contacter !
Ce service vous permet de charger un corpus (de préférence en format de texte brut) qui vous sera retourné analysé par la chaine de traitement linguistique FRMG d'ALPAGE.
Les résultats sont déchargeables sous forme d'une archive ou directement visualisable sous ce wiki. Par défaut, le corpus analysé réside dans une zone privée au dépositaire, mais nous encourageons les dépositaires de corpus à les rendre publics (sous réserve qu'ils aient les droits pour le faire). Divers schémas d'annotations sont disponibles en sortie, comme le schéma en dépendances utilisé pour le French TreeBank (en format tabulaire CONLL), le schéma natif DepXML de FRMG (sous format XML ou variante DepConll), et le schéma EASy/Passage mixte chunks et dépendances (sous format XML).
Des travaux sont en cours pour proposer prochainement de nouveaux services exploitant les résultats d'analyse:
Nous nous réservons le droit d'utiliser les résultats d'analyse de corpus pour améliorer les performances de FRMG (en particulier au travers de fouilles d'erreurs). Par contre, sauf accord des dépositaires, les corpus et les résultats ne seront pas distribués ni publiés.
Enfin, le service est expérimental et dépends aussi des disponibilités de calcul sur cluster. Nous comptons donc sur votre indulgence en cas de problèmes ou de délai !
Notes sur l'utilisation du service: le mode de fonctionnement de ce service n'est pas (encore) totalement intuitif ! Pour traiter un nouveau corpus, il faut
Pour voir le corpus traité, il suffit de le sélectionner dans la liste des corpus. Une liste des fichiers du corpus doit apparaître. En cliquant sur un fichier, le texte du fichier apparaît, avec des codes couleur indiquant le degré de réussite de FRMG sur les phrases. Cliquer sur une phrase fait apparaître son arbre d'analyse.
En utilisant l'onglet "Search" à droite, il est possible de faire des requêtes sur le corpus ou sur un fichier, en mode recherche de mots ou via des requêtes DPath.
Via l'onglet "Misc", il est possible de récupérer une archive de l'ensemble des phrases analysées
Il est possible d'interroger les corpus traités par FRMG à l'aide du langage DPath, décrit ci-dessous.
Inspiré par le langage de requête XPath pour XML, le langage DPath permet d'exprimer des requêtes pour le schema natif FRMG sous son format DepXML. Il est implanté en Perl mais possède sa propre syntaxe pour plus de compacité. Le langage DPath s'appuie sur une représentation orientée objet des noeuds (DepXML::Node) et arcs (DepXML::Edge), et dans une moindre mesure des clusters (DepXML::Cluster). Les constituants et hypertags ne sont pas encore accessibles. Les primitives de base du langage sont des méthodes s'appliquant à ses objets. On distingue deux familles de méthodes:
Certaines méthodes sont en fait implicites, comme par exemple cat_in_v_aux pour indiquer que la catégorie d'un noeud est soit v, soit aux, ou label_in_subject_impsubj pour indiquer que le label d'un arc est soit subject, soit impsubj.
Il est bien sûr possible de définir ses propres méthodes sur les noeuds et les arcs pour les utiliser dans DPath, en respectant la convention que les méthodes de propriétés doivent commencer par is_ ou has_. Et il est tout à fait possible d'utiliser une requête DPath dans la définition d'une telle méthode.
Une succession de propriétés dénote une conjonction, tandis qu'une succession de déplacements dénote un chemin dans la structure de dépendance.
Il est à noter que les expressions DPath (comme XPath) travaillent sur des ensembles d'objets (de même nature, noeuds ou arcs). Elles prennent généralement un singleton en entrée mais peuvent très bien retourner plusieurs objets en sortie, ou l'ensemble vide. L'opérateur union peut ainsi être utilisé pour grouper les résultats de deux sous-requêtes (équivalent à un ou logique). Enfin, il est possible de parenthéser une expression E pour l'appliquer sur l'ensemble courant d'objets sans déplacement, même si E contient des déplacements, de manière analogue à la construction [0...]0 en XPath. DPath autorise ainsi les constructions suivantes, sans déplacement:
Il est également possible d'itérer une expression avec la notation ( <exp>)*.
L'expression suivante permet de récupérer les noeuds de catégorie coo (coordonnant), lié à un noeud fils verbal par un arc étiqueté coord3 et à un noeud père verbal par un arc d'adjonction.
dpath is_coo .(out is_coord3 target is_v) .(in is_adj source is_v)
exemple d'expression dpath
configuration filtrée par l\'expression DPath dans il mange et il boit.
|
configuration rejetée par l\'expression DPath dans il mange ou non ?
|
Les deux méthodes suivantes (sur les noeuds) s'appuient sur des expressions DPath pour se déplacer au noeud père (via l'arc entrant) ou aux noeuds fils (via les arcs sortants). Ces méthodes peuvent ensuite elles-mêmes être utilisées dans des expressions DPath.
sub parent { shift->apply(dpath in source); } sub children { shift->apply(dpath out target); }
méthodes de déplacement vers les noeuds père ou fils
En allant plus loin, on peut ainsi définir des méthodes de déplacement beaucoup plus complexes. Ainsi, la méthode suivante (sur les noeuds) permet de se déplacer vers son sujet. On notera l'emploi de l'opérateur union et l'emploi récursif de la méthode get_subject (intuitivement, un sujet est accroché directement sur le noeud ou doit être recherché récursivement sur un auxiliaire adjoint au noeud).
sub get_subject { (shift->apply( dpath out ( is_subject target union is_Infl is_adj target is_aux get_subject ) ) )[0]; }
méthode récursive pour se déplacer vers le sujet
Dans le cadre de ce wiki, pour la consultation des corpus analysés avec FRMG, DPath a été complété par l'utilisation d'une phase amont d'indexation via ElasticSearch. Il est également envisagé d'utiliser DPath pour chercher certaines structures dans les phrases d'exemple servant à illustrer ce wiki.
Pour ce wiki, DPath a aussi été étendu pour fonctionner pour les schémas CONLL, PASSAGE et DepCONLL en plus de DepXML. Il est également possible d'utiliser des macro. Les requêtes faites par les utilisateurs peuvent être enregistrés en vue de constituer une bibliothèque.
Il existe quelques différences de notation avec la version Perl.
Ainsi sur les expressions parenthésées:
Pour les tests élémentaires:
Et naturellement, plus d'échappements possibles vers Perl !
Nous rendons disponibles les résultats d'analyse avec FRMG de quelques corpus du français (réalisé en Juin 2014). Ces corpus ont initialement été préparés en 2007 dans le cadre de l'action PASSAGE, et font partie du Corpus Passage Long (CPL). Les textes de ces corpus sont libres d'accès mais restent néanmoins associés à leur licence d'origine.
Un nouveau corpus, hors PASSAGE, est également disponible:
Les annotations produites sont librement disponibles, sous réserve, pour les éléments textuels, des licences s'appliquant sur les textes originaux.
Nous invitons cependant fortement les utilisateurs de ces annotations
Les annotations sont actuellement disponibles pour le schéma DepXML (format XML). En fonction des demandes, des versions pour les schémas FTB/CONLL et Passage/XML seront rendues disponibles. Il est également envisagé dans les mois à venir d'utiliser des versions plus récentes de Wikipédia et Wikisource. Des suggestions pour rendre disponible d'autres gros corpus (sous licence libre) sont les bienvenues !
Enfin, il est également possible de lancer des requêtes DPath sur ces corpus (Service de requêtes), en prenant en considération que certaines requêtes peuvent demander un temps de traitement conséquent !
Quelques statistiques sur les corpus:
Corpus | #phrases (Millions) | #mots (Millions) | %analyses complètes | notes |
---|---|---|---|---|
EuroParlement | 1.6 | 41.5 | 95.0% | débats parlementaires européens |
Wikipedia Fr | 18.0 | 178.9 | 93.4% | 504K pages encyclopédiques |
Wikisource Fr | 4.4 | 64.0 | 84.8% | 12.8K textes littéraires |
EMEA Fr | 1.3 | 14.9 | 88.8% | médical |
Les corpus ont été annotés automatiquement avec FRMG, sans post correction manuelle. Nous n'avons donc pas d'indication précise sur la qualité des analyses. Des éléments d'évaluation pour FRMG sont néanmoins disponibles sur cette page. Les utilisateurs de ces corpus sont gentiment invités à faire remonter des informations sur des erreurs manifestes et récurrentes.