Similarités entre textes basés sur les noms propres *

Frlburgerh  Maurel, N; Maurel, D.

Revue de l'Information Scientifique et Technique
Volume 12, Numéro 2, Pages 77-112
2002-10-08

Similarités Entre Textes Basés Sur Les Noms Propres *

Auteurs : Frlburgerh Maurel N . Maurel D. .

Résumé

le traitement automatique des langues peut apporter des améliorations non négligeables à la fouille de textes. Les noms propres ont été largement étudiés dans le domaine de l’extraction d’information ; nous pensons qu’ils peuvent aussi jouer un rôle dans les systèmes de recherche d’information. C’est pourquoi nous proposons de faÎre ressortir les qualités sémantiques des noms propres à travers une mesure de similarité pour classer des articles de journaux entre eux. La quantité de noms propres et leur qualitéinformationnelle dans ce type de textes les rend pertinents pour améliorer la classification non supervisée grâce à une mesure de similarité qui les met en valeur par rapport aux autres mots d’un texte. L’hypothèse de l’importance des noms propres présents dans un texte pour le classer semble prometteuse. Dans cet article, nous présentons la tâche Mue relative à l’extration desentités nommées (dont les noms propres font parti} et notre système d’extraction et de catégorisation des noms propres. Dans une deuxième partie, nous proposons les mesures de similarité à base de noms propres que nous avons créées et testées. Enfin, nous expliquons comment nous avons procédé pour comparer les différentes classifications hiérarchiques obtenues avec nos mesures de similarité et nous décrivons les résultats obtenus.