Révisions
Nous rendons disponibles les résultats d'analyse avec FRMG de quelques corpus du français. Ces corpus ont initialement été préparés dans le cadre de l'action PASSAGE, et font partie du Corpus Passage Long (CPL). Les textes de ces corpus sont libres d'accès mais restent néanmoins associés à leur licence d'origine.
- EuroParlement : EP (depxml, 8.6G). EuroParlement est un corpus de transcriptions des discours du parlement européen, disponible ici, sans restriction particulière de licence.
- Wikipedia français : FrWiki (depxml, 39G). Ce corpus comprend une sous-partie des pages d'un dump ancien de Wikipedia fr (2007). Certaines pages trop longues, trop courtes, avec peu de textes, ou en langue étrangère ont été supprimées à l'époque. Les pages sont originellement disponibles sous licence Creative Commons Parternité - partage à l'identique des conditions initiales.
- WikiSource français : WkS (depxml, 13G). Ce corpus de textes littéraires comprend une sous-partie des ouvrages d'un dump ancien de WikiSource fr (2007). Certaines pages trop longues, trop courtes, avec peu de textes, ou en langue étrangère ont été supprimées à l'époque.Les textes sont originellement disponibles sous licence Creative Commons Parternité - partage à l'identique des conditions initiales.
Les annotations produites sont librement disponibles, sous réserve, pour les éléments textuels, des licences s'appliquant sur les textes originaux. Nous invitons cependant fortement les utilisateurs de ces annotations à se faire connaître, à éventuellement décrire leurs travaux sur ce site, et à référencer ce site ou les publications sur FRMG (biblio) dans leurs propres articles !
Les annotations sont actuellement disponibles pour le schéma DepXML (format XML). En fonction des demandes, des versions pour les schémas FTB/CONLL et Passage/XML seront rendues disponibles. Il est également envisagé dans les mois à venir d'utiliser des versions plus récentes de Wikipédia et Wikisource.
Enfin, il est également possible de lancer des requêtes DPath sur ces corpus (Service de requêtes), en prenant en considération que certaines requêtes peuvent demander un temps de traitement conséquent !
Quelques statistiques sur les 3 corpus:
Corpus | #phrases (Millions) | #mots (Millions) | notes |
---|---|---|---|
EuroParlement | 1.6 | 41.5 | débats parlementaires européens |
Wikipedia Fr | 18.0 | 178.9 | 504K pages encyclopédiques |
Wikisource Fr | 4.4 | 64.0 | 12.8K textes littéraires |
- Version imprimable
- Connectez-vous ou inscrivez-vous pour publier un commentaire