Nous rendons disponibles les résultats d'analyse avec FRMG de quelques corpus du français (réalisé en Juin 2014). Ces corpus ont initialement été préparés en 2007 dans le cadre de l'action PASSAGE, et font partie du Corpus Passage Long (CPL). Les textes de ces corpus sont libres d'accès mais restent néanmoins associés à leur licence d'origine.
Un nouveau corpus, hors PASSAGE, est également disponible:
Les annotations produites sont librement disponibles, sous réserve, pour les éléments textuels, des licences s'appliquant sur les textes originaux.
Nous invitons cependant fortement les utilisateurs de ces annotations
Les annotations sont actuellement disponibles pour le schéma DepXML (format XML). En fonction des demandes, des versions pour les schémas FTB/CONLL et Passage/XML seront rendues disponibles. Il est également envisagé dans les mois à venir d'utiliser des versions plus récentes de Wikipédia et Wikisource. Des suggestions pour rendre disponible d'autres gros corpus (sous licence libre) sont les bienvenues !
Enfin, il est également possible de lancer des requêtes DPath sur ces corpus (Service de requêtes), en prenant en considération que certaines requêtes peuvent demander un temps de traitement conséquent !
Quelques statistiques sur les corpus:
Corpus | #phrases (Millions) | #mots (Millions) | %analyses complètes | notes |
---|---|---|---|---|
EuroParlement | 1.6 | 41.5 | 95.0% | débats parlementaires européens |
Wikipedia Fr | 18.0 | 178.9 | 93.4% | 504K pages encyclopédiques |
Wikisource Fr | 4.4 | 64.0 | 84.8% | 12.8K textes littéraires |
EMEA Fr | 1.3 | 14.9 | 88.8% | médical |
Les corpus ont été annotés automatiquement avec FRMG, sans post correction manuelle. Nous n'avons donc pas d'indication précise sur la qualité des analyses. Des éléments d'évaluation pour FRMG sont néanmoins disponibles sur cette page. Les utilisateurs de ces corpus sont gentiment invités à faire remonter des informations sur des erreurs manifestes et récurrentes.