Révisions
Nous rendons disponibles les résultats d'analyse avec FRMG de quelques corpus du français (réalisé en Juin 2014). Ces corpus ont initialement été préparés en 2007 dans le cadre de l'action PASSAGE, et font partie du Corpus Passage Long (CPL). Les textes de ces corpus sont libres d'accès mais restent néanmoins associés à leur licence d'origine.
- EuroParlement : EP (depxml 8.6G) ou EP (depxml passage 12G). EuroParlement est un corpus de transcriptions des discours du parlement européen, disponible ici, sans restriction particulière de licence.
- Wikipedia français : FrWiki (depxml, 39G) ou FrWiki (depxml passage 50G). Ce corpus comprend une sous-partie des pages d'un dump ancien de Wikipedia fr (2007). Certaines pages trop longues, trop courtes, avec peu de texte, ou en langue étrangère ont été supprimées à l'époque. Les pages sont originellement disponibles sous licence Creative Commons Parternité - partage à l'identique des conditions initiales.
- WikiSource français : WkS (depxml 13G) ou WkS (depxml passage 18G). Ce corpus de textes littéraires comprend une sous-partie des ouvrages d'un dump ancien de WikiSource fr (2007). Certaines pages trop courtes, avec peu de texte, ou en langue étrangère ont été supprimées à l'époque.Les textes sont originellement disponibles sous licence Creative Commons Parternité - partage à l'identique des conditions initiales.
Un nouveau corpus, hors PASSAGE, est également disponible:
<
ul>
Quelques statistiques sur les corpus:
Corpus | #phrases (Millions) | #mots (Millions) | %analyses complètes | notes |
---|---|---|---|---|
EuroParlement | 1.6 | 41.5 | 95.0% | débats parlementaires européens |
Wikipedia Fr | 18.0 | 178.9 | 93.4% | 504K pages encyclopédiques |
Wikisource Fr | 4.4 | 64.0 | 84.8% | 12.8K textes littéraires |
EMEA Fr | 1.3 | 14.9 | 88.8% | médical |
- Version imprimable
- Connectez-vous ou inscrivez-vous pour publier un commentaire