Page web de Benoît Sagot  —  équipe Alpage (INRIA / Paris 7)

En
SxPipe, actuellement en version 2, est une chaîne modulaire et paramétrable dont le rôle est d’appliquer à des corpus bruts une cascade de traitements de surface.

Préalable nécessaire à une possible analyse syntaxique, ils peuvent également servir à préparer d’autres tâches. Développé pour le français mais également pour d’autres langues, SxPipe 2 comprend, entre autres, divers modules de reconnaissances d’entités nommées dans du texte brut, un segmenteur en phrases et en tokens, un correcteur orthographique et reconnaisseur de mots composés, ainsi qu’une architecture originale de reconnaissance de motifs non contextuels, utilisée par différentes grammaires spécialisées (nombres, constructions impersonnelles,…).

Un des principes sur lesquels repose SxPipe est la préservation des ambiguïtés. En effet, une succession linéaire de traitements accumule progressivement des informations sur le texte. Mais certains traitements peuvent ne pas disposer de toutes les informations nécessaires pour effectuer certains choix. Dans ce cas, SxPipe fait le choix, autant que possible, de préserver les ambiguïtés, retardant ainsi la prise de décision à une phase ultérieure qui disposera de plus d'éléments. Ceci nécessite que les modules concernés sachent produire en sortie, mais aussi prendre en entrée des entrées ambiguës (des DAG, ou graphes orientés acycliques).

Téléchargement

Dernière version distribuée (2.0b4)