Traitement de corpus

Pour les utilisateurs enregistrés (cf. FAQ, Comment créer un nouveau compte?), il est possible de soumettre des corpus de textes à l'analyseur syntaxique FRMG. La taille des corpus est pour l'instant limitée à 1 million de mots. Au dessus de cette taille, nous vous proposons de nous contacter !

Ce service vous permet de charger un corpus (de préférence en format de texte brut) qui vous sera retourné analysé par la chaine de traitement linguistique FRMG d'ALPAGE.

Les résultats sont déchargeables sous forme d'une archive ou directement visualisable sous ce wiki. Par défaut, le corpus analysé réside dans une zone privée au dépositaire, mais nous encourageons les dépositaires de corpus à les rendre publics (sous réserve qu'ils aient les droits pour le faire). Divers schémas d'annotations sont disponibles en sortie, comme le schéma en dépendances utilisé pour le French TreeBank (en format tabulaire CONLL), le schéma natif DepXML de FRMG (sous format XML ou variante DepConll), et le schéma EASy/Passage mixte chunks et dépendances (sous format XML).

Des travaux sont en cours pour proposer prochainement de nouveaux services exploitant les résultats d'analyse:

  • fouille d'erreurs, pour déterminer des propriétés lexicales particulières d'un corpus posant problèmes (comme des mots inconnus)
  • indexation (via ElasticSearch) et recherche de type DPath, pour l'étude de phénomènes syntaxiques dans un corpus (fait !)
  • extraction terminologique et constitution de réseau de mots, avec couplage avec l'interface Libellex de visualisation et de validation (voir Applications).
  • ....

Nous nous réservons le droit d'utiliser les résultats d'analyse de corpus pour améliorer les performances de FRMG (en particulier au travers de fouilles d'erreurs). Par contre, sauf accord des dépositaires, les corpus et les résultats ne seront pas distribués ni publiés.

Enfin, le service est expérimental et dépends aussi des disponibilités de calcul sur cluster. Nous comptons donc sur votre indulgence en cas de problèmes ou de délai !

Notes sur l'utilisation du service: le mode de fonctionnement de ce service n'est pas (encore) totalement intuitif ! Pour traiter un nouveau corpus, il faut

  1. sélectionner un fichier ou archive à traiter avec "Choisissez un fichier"
  2. charger le fichier comme nouveau corpus avec "Start Upload"
  3. (le corpus chargé doit ensuite apparaître dans la liste des corpus avec le status "waiting")
  4. sélectionner le corpus dans la liste,
  5. ouvrir en bas à droite l'onglet "Process"
  6. choisir le schéma d'annotation de sortie (CONLL par défaut)
  7. cliquer sur "Launch Process"
  8. (comme la tâche peut prendre un certain temps, un mail est envoyé à l'utilisateur à la fin de celle-ci)

Pour voir le corpus traité, il suffit de le sélectionner dans la liste des corpus. Une liste des fichiers du corpus doit apparaître. En cliquant sur un fichier, le texte du fichier apparaît, avec des codes couleur indiquant le degré de réussite de FRMG sur les phrases. Cliquer sur une phrase fait apparaître son arbre d'analyse.

En utilisant l'onglet "Search" à droite, il est possible de faire des requêtes sur le corpus ou sur un fichier, en mode recherche de mots ou via des requêtes DPath.

Via l'onglet "Misc", il est possible de récupérer une archive de l'ensemble des phrases analysées