Sorties FRMG

Table of Contents 

Nativement, l'analyseur FRMG produit des forêts partagées de dérivations TAG, indiquant l'ensemble des opérations TAG (substitution, adjonction, ...) effectuées, sur quel noeud et avec quel arbre. Ces forêts de dérivation sont ensuite converties en des forêts de dépendances. Intuitivement, l'idée (classique) est qu'une opération TAG consistant à appliquer un certain arbre β sur le noeud N d'un arbre α se traduit par une dépendance étiquetée N allant du mot ancre de α vers le mot ancre de β. Le principe est étendu pour matérialiser les opérations sur les noeuds lexicaux et sur les noeuds co-ancre. Néanmoins, ce schéma de conversion assume que tous les arbres élémentaires possèdent une ancre lexicale, ce qui n'est pas toujours le cas pour les arbres de FRMG. Dans ce cas, une pseudo-ancre lexicalement vide est utilisée comme tête ou cible des dépendances [1].

En pratique, les forêts partagées de dépendances sont représentées en XML pour le schéma DepXML. Ce même schéma est aussi utilisé après désambiguisation de la forêt. Il existe une visualisation graphique de ce format, utilisée par défaut sur ce wiki et également par le serveur de parseurs (parserd) et le nouveau shell pour FRMG (frmg_shell).

La forme graphique de DepXML permet essentiellement de visualiser

  1. des clusters (<cluster>) associés aux formes d'une phrase;
  2. des noeuds ( (<node>)) inclus dans les clusters précisant un lemme, une partie du discours (comme nc pour un nom ou v pour un verbe) et un arbre de la grammaire en cas d'ancrage par le mot en question. Les pseudo-ancres donne des noeuds lexicalement vides, mais possédant néanmoins comme catégorie syntaxique celle de la racine de l'arbre élémentaire associé;
  3. des arcs (<edge>) liant un noeud gouverneur à un noeud gouverné, associé par la couleur à un type d'opération TAG (substitution en bleu clair, adjonction en rouge avec ligne pointillée, co-ancrage ou lexical en violet, skip en vert), et portant un label. Ce label dénote en général une fonction syntaxique (comme sujet) dans le cas des opérations de substitution et de co-ancrage, et la catégorie syntaxique du gouverneur dans le cas des adjonctions.

La forme graphique de DepXML ne présente qu'une petite partie des informations fournies par ce format. En sus des éléments précédemment évoqués, le schéma DepXML fournit des informations:

  • sur les constituants maximaux couverts par les arbres élémentaires, représentés par des balises <op>. Ainsi, le listing 1 fournit les informations sur le constituant nominal (catégorie N2) une pomme, à savoir féminin singulier 3ème personne non humain non temporel ...
  • sur des hypertags (<hypertag>) fournissant, sous forme de structures de traits, les informations ayant permis d'ancrer un arbre de la grammaire par un mot de la phrase. Ces informations sont essentiellement pertinentes pour les verbes et fournissent la valence verbale de ceux-ci (pour les arguments arg0, arg1 et arg2), ainsi que sur la diathèse (diathesis), le contrôle (ctrsubj), .... Pour chaque argument est fourni la fonction grammaticale (function), le type (kind), la réalisation syntaxique (real), l'introducteur éventuel (pcas), l'extraction éventuelle (extracted). Le listing 2 montre ainsi l'hypertag associé au verbe ditransitif donner dans la phrase «il donne une pomme à Marie».
  • sur des dérivations, non explicitement représentées mais en fait présentes au coeur des autres éléments, mais essentiellement importantes avant désambiguisation. Une dérivation groupe en effet un ensemble d'arcs pour un noeud gouverneur, définit un certain constituant (comme un Groupe Nominal N2), et est attaché à un hypertag (si l'arbre sous-jacent est ancré). Dualement, avant désambiguisation, un noeud peut être gouverneur pour plusieurs dérivations, un arc peut être utilisé pour plusieurs dérivations, et un constituant ou un hypertag peuvent être associés à plusieurs dérivations.

Il est évident que le schéma DepXML pourrait être grandement simplifié dans le cas de la représentation d'une seule analyse (au lieu d'une forêt partagée d'analyse). En particulier, les informations présentes dans <node>, <op> et <hypertag> pourraient être regroupées au sein de <node>. Les balises <deriv> pourraient aussi être éliminées ainsi que toute mention aux dérivations.

  1. <op cat="N2" deriv="d3" id="E1o5" span="2 4">
  2. <narg type="top">
  3. <fs>
  4. <f name="wh"><minus></minus></f>
  5. <f name="time"><minus></minus></f>
  6. <f name="sat"><plus></plus></f>
  7. <f name="person"><val>3</val></f>
  8. <f name="number"><val>sg</val></f>
  9. <f name="hum"><minus></minus></f>
  10. <f name="gender"><val>fem</val></f>
  11. <f name="enum"><minus></minus></f>
  12. <f name="countable"><plus></plus></f>
  13. </fs>
  14. </narg>
  15. </op>

Listing 1 : <op> pour une pomme dans il donne une pomme à Marie

  1. <hypertag derivs="d4" id="E1ht0001">
  2. <fs>
  3. <f name="anchor"><val>donne</val></f>
  4. <f name="refl"><minus></minus></f>
  5. <f name="imp"><minus></minus></f>
  6. <f name="diathesis"><val>active</val></f>
  7. <f name="cat"><val>v</val></f>
  8. <f name="arg0">
  9. <fs>
  10. <f name="function"><val>suj</val></f>
  11. <f name="kind"><val>subj</val></f>
  12. <f name="real"><val>cln</val></f>
  13. <f name="pcas"><minus></minus></f>
  14. <f name="extracted"><minus></minus></f>
  15. </fs>
  16. </f>
  17. <f name="arg1">
  18. <fs>
  19. <f name="function"><val>obj</val></f>
  20. <f name="kind"><val>obj</val></f>
  21. <f name="real"><val>N2</val></f>
  22. <f name="pcas"><minus></minus></f>
  23. <f name="extracted"><minus></minus></f></fs>
  24. </f>
  25. <f name="arg2">
  26. <fs>
  27. <f name="function"><val>objà</val></f>
  28. <f name="kind"><val>prepobj</val></f>
  29. <f name="real"><val>PP</val></f>
  30. <f name="pcas"><val>à</val></f>
  31. <f name="extracted"><minus></minus></f>
  32. </fs>
  33. </f>
  34. </fs>
  35. </hypertag>

Listing 2 : <hypertag> pour donne dans il donne une pomme à Marie


Références

  1. É. Villemonte De La Clergerie, « Convertir des dérivations TAG en dépendances », in 17e Conférence sur le Traitement Automatique des Langues Naturelles - TALN 2010, Montreal, Canada, 2010.