Projet EDyLex
HR-Noyau 2
Extraction non-supervisée de relations et patrons de relations entre entités nommées
[Index]
Description de la méthode
La nouvelle version de la fonction d'acquisition du système HR est réalisée par deux méthodes non-supervisées de relations et de patrons de relations entre entités nommées.
Basée sur l'hypothèse que les couples d'EN en même relation apparaissent dans les mêmes contextes et que les mots représentatifs de leurs contextes peuvent caractériser leurs relations, l'opération d'acquisition est constituée de deux grandes étapes : identification des couples d'ENs et des chemins les reliant dans les arbres syntaxiques et clustering de ces contextes.
La première approche exploite uniquement des informations lexicales des composants de chemins pour le calcul de la similarité employée pour la phase principale de classification.
La seconde approche caractérisée par l’exploitation de la dualité de la représentation des relations sémantiques met également à profit des informations sur la similarité des couples d'ENs (instances de relations) que relient les chemins.
Programme HR
- Fichier Zip contenant différents codes écrits en C++ et le fichier projet Xcode (.xcodeproj).
- Commande d'exécution : HR Fichier_source Type_EN1 Type_EN2 non
ex. extraire de manière non-supervisée différentes relations existant entre les éléments Individu et Organisation à partir du corpus "Test.txt" :
HR Test.txt indivual organization non
Résultats d'expériences
Information sur le corpus
- Un an de dépêches AFP (année 2009)
- Résultats d'analyse syntaxique en dépendance au format Passage (analyse réalisée par FRMG)
- Exemple de fichier après "pré-traitement" (format simplifié dans un seul fichier) :
- Fusion de fichiers de résultat FRMG
- Extraction des informations nécessaires uniquement, par le script de prétraitement pre-HR
Contenu des fichiers résultat
- Fichier Classes
ensemble des classes de chemins de relations avec les instances détectées
- Fichier Chemins
ensemble des chemins de relations
- Fichier ENs
ensemble des couples d'ENs
Résultat 1 : Méthode utilisant uniquement la similarité des chemins
(cf. NAKAMURA-DELLOYE & STERN 2011)
- Aperçu des classes constituées
- Relations IND-COM (individual-company)
- Relations IND-ORG (individual-organization)
- Relations IND-IND (individual-individual)
- Relations COM-COM (company-company)
Résultat 2 : Méthode exploitant la similarité des chemins et des instances partagées
(cf. NAKAMURA-DELLOYE 2011)
- Aperçu des classes constituées
- Relations IND-COM (individual-company)
- Relations IND-ORG (individual-organization)
- Relations IND-IND (individual-individual)
- Relations COM-COM (company-company)
Publications
- Yayoi NAKAMURA-DELLOYE (2011). Extraction non-supervisée de relations basée sur la dualité de la représentation, TALN 2011, Montpellier, (France), 11 pages.
- Yayoi NAKAMURA-DELLOYE et Rosa STERN (2011). Extraction des relations et des patrons de relations entre entités nommées en vue de l'enrichissement d'une ontologie. ToTh 2011, Annecy (France), 12 pages.
Créé le 7 juillet 2011
Yayoi NAKAMURA-DELLOYE