Performances de FRMG

Table of Contents 

Nous donnons ici quelques éléments d'information sur les performances de FRMG, en terme de qualité sur divers corpus de test et métriques. Nous fournissons également des informations sur le taux de couverture par analyses complètes, sur divers styles de corpus. Enfin, même si ce n'est qu'indicatif, des informations sur les vitesses d'analyse, désambiguisation, et conversion

  • [1] FRMG: évolutions d'un analyseur syntaxique TAG du français
  • [2] Improving a symbolic parser through partially supervised learning
  • [3] premiers résultats pour FRMG sur le corpus EASy

Améliorations grâce à l'utilisation de techniques de fouilles d'erreurs [4] sur les échecs d'analyse de gros corpus.

Le tableau suivant, issu de [2], donne, pour quelques corpus, quelques éléments d'information sur le taux de couverture par analyse complète (les autres phrases étant couverte par des analyses robustes). Le tableau fournit aussi les temps d'analyse moyens et médians.

Corpus #phrases %analyse totale temps moyen (s) temps médian (s)
Taux de couverture et vitesse
FTB train 9881 95.9 1.04 0.26
FTB dev 1235 96.1 0.88 0.30
FTB test 1235 94.9 0.85 0.30
Sequoia 3204 95.1 1.53 0.17
EasyDev 3879 87.2 0.87 0.14

Le tableau suivant, issu de [2], donne des éléments d'évaluation de FRMG sur divers treebanks (FrenchTreeBank, Sequoia, EasyDev), pour divers schéma d'annotation (schéma FTB pour FTB et Sequoia; schéma Easy/Passage pour EasyDev) et avec 2 métriques (LAS pour le schéma FTB sans prise en compte des poncuations; F1-mesure sur les relations pour EasyDev). Les résultats, au moins sur le FTB, peuvent être comparés avec les ceux obtenus par des analyseurs syntaxiques (Berkeley, MALT, et MST) entraînés sur la partie FTB train (voir cette page pour plus d'information).

DYALOG-SR est un analyseur statistique par transitions (type MALT) s'appuyant sur des techniques de programmation dynamique et des faisceaux (beam). Comme FRMG, Il est lui-aussi implémenté au dessus du système DyALog. Une expérience récente a consisté à utiliser les sorties de FRMG comme traits de guidage pour DYALOG-SR [5], donnant d'excellents résultats sur le FTB, mais également sur le corpus SEQUOIA.

Performances de FRMG, contrastées avec quelques analyseurs statistiques (2014), mise à jour 2015
French TreeBank (LAS) Autres Corpus
Analyseurs Train Dev Test Sequoia (LAS) EasyDev (Passage)
FRMG base 79.95 80.85 82.08 81.13 65.92
+restr 80.67 81.72 83.01 81.72 66.33
+tuning 86.60 85.98 87.17 84.56 69.23
2014/01 86.20 87.49 85.21
2015/03 86.76 87.95 86.41 70.81
Autres Systèmes Berkeley 86.50 86.80
MALT 86.90 87.30
MST Parser 87.50 88.20
dyalogs-sr nu 88.17 89.01 85.02
guidé par FRMG 89.02 90.25 87.14

Toujours dans [5], nous avons quelques résultats plus précis qui tendent à confirmer la stabilité de FRMG (et d'analyseurs couplés avec FRMG) sur des domaines autres que journalistiques (l'augmentation du taux d'erreurs est plus faible en absolu [delta(err)] et relatif [%delta(err)] pour FRMG). Après correction d'une mauvaise utilisation des traits morphosyntaxiques produits par FRMG sur Sequoia, nous fournissons également des résultats mis à jour (Sept. 2014).

Résultats sur le corpus SEQUOIA (Mai 2014, mise à jour en Sept 2014)
FRMG DYALOG-SR DYALOG-SR+FRMG DYALOG-SR +FRMG (sept. 2014)
Corpus #phrases LAS delta(err) %delta LAS delta(err) %delta LAS delta(err) %delta LAS delta(err) %delta
FTB Test 1235 87.49 89.01 90.25 90.25
Europar 561 87.97 -0.5 -3.8 87.00 +2.0 +18.2 88.94 +1.3 +13.4 89.15 +1.1 +11.3
Annodis 529 86.11 +1.4 +11.0 85.80 +3.2 +29.1 88.21 +2.0 +20.9 88.45 +1.8 +18.4
Emea-fr Dev 574 85.16 +2.3 +18.6 83.50 +5.2 +50.0 86.26 +4.0 +40.9 86.41 +3.8 +39.4
Emea-fr Test 544 84.67 +2.8 +22.5 85.01 +4.0 +36.3 86.87 +3.4 +34.7 87.77 +2.5 +25.4
FrWiki 996 83.53 +4.0 +31.7 84.39 +4.6 +41.9 86.23 +4.0 +41.2 86.94 +3.3 +33.9

Références

  1. É. de La Clergerie, Sagot, B., Nicolas, L., et Guénot, M. - L., « FRMG: évolutions d'un analyseur syntaxique TAG du français », in Journée de l'ATALA sur : Quels analyseurs syntaxiques pour le français ?, Paris, France, 2009.
  2. É. Villemonte De La Clergerie, « Improving a symbolic parser through partially supervised learning », in The 13th International Conference on Parsing Technologies (IWPT), Nara, Japon, 2013.
  3. P. Boullier, Clément, L., Sagot, B., et De La Clergerie, É. Villemonte, « « Simple comme EASy :-) » », in Proceedings of TALN'05 EASy Workshop (poster), Dourdan, France, 2005.
  4. B. Sagot et de La Clergerie, É., « Fouille d'erreurs sur des sorties d'analyseurs syntaxiques », Traitement Automatique des Langues, vol. 49, p. 41-60, 2008.
  5. É. Villemonte De La Clergerie, « Jouer avec des analyseurs syntaxiques », in TALN, Marseilles (France), 2014.