Similarité entre textes basées sur les noms propres

N Friburger

download PDF

Published:

Mar 2, 2004

DOI:

Issue

Vol. 12 No. 2 (2002)

Section

Articles

Copyright for articles published in this journal is retained by the journal.

N Friburger

Abstract

Résumé: Les noms propres représentent environ 10% du texte d'un article de journal. Leur quantité et leur qualité informationnelle sont déjà utilisée dans les systèmes d'extraction d'informations (conférences MUC) Nous avons crée un outil basé sur une description linguistique sous forme de transducteurs à nombre finis d'états. Les noms propres extraits sont alors utilisés dans le but de recherche d'information : il s'agit de présenter aux utilisateurs des textes journalistiques sous la forme d'une hiérarchie et de fournir une description des sujets traités dans les textes. Dans cet article nous présentons une mesure de similarité automatique de textes avec une similarité avec les mots seuls

Mots clés : Similarité/ Classification hiérarchique/ Noms propres.

Similarites between proper namer besed texts

Abstract: Proper naner represent about 10% newspaper articles in English or French texts. Thier quantity and informational qualité are already usen in different Information Extraction systems. Proper names have widely been studied in the MUC confrences designed to promote research in Information Extraction. We have created our own named entity extraction tool based on a linguistic description with automata. The extracted names are used in an iformation retrieval a topic description of the clusters. We verify the interest of the use of proper names in a similarity measure to improve cluster the interest of the use of propre names in a similarity measure to improve clustering. This measure merge a similarity besed on all the words with a similarity based on the propre names.

Key words : Similarity/ Hierarchic clustering/ Proper names.

Revue d'Information Scientifique & Technique Vol.12(2) 2002: 61-76

Revue d'Information Scientifique et Technique
Journal / Revue d'Information Scientifique et Technique / Vol. 12 No. 2 (2002) / Articles

Published:

DOI:

Similarité entre textes basées sur les noms propres

N Friburger

Abstract

Journal Identifiers

Article Sidebar

Published:

DOI:

Article Details

Main Article Content

N Friburger

Abstract

Journal Identifiers