Main Article Content

Une approche de désambiguïsation morpho lexicale évaluée sur l’analyseur morphologique Alkhalil


K.Z. Bousmaha
S Charef-Abdoun
L Hadrich_Belguith
M.K. Rahmouni

Abstract

Hors contexte, la plupart des mots ont plusieurs sens et plusieurs fonctions. La désambiguïsation lexicale, par exemple, consiste à choisir la bonne signification d’un mot polysémique dans un contexte donné. Plusieurs méthodes et approches existent à tous les niveaux de désambigüisation: morphologique [7], lexicale [3], sémantique [4] pour le TAL (traitement automatique des langues). Mais pour la langue arabe l’ambigüité s’accentue par la non diacritisation des mots. Afin de réduire considérablement ce taux d’ambigüité, nous proposons dans cet article une approche de désambigüisation qui se fonde sur le choix des bonnes diacritiques lors des différentes analyses. Cette approche combine une approche linguistique à une approche multicritère d’aide à la décision. Cette combinaison peut être considérée comme une alternative de choix pour remédier au problème de l’ambigüité morpho_lexicale quelque soit le taux de diacritiques du texte traité. Pour son évaluation, nous avons essayé la désambigüisation de l’analyseur morphologique on-line Alkhalil (L’approche que nous proposons peut être expérimentée sur n’importe quel autre analyseur morphologique da la langue arabe). Alkhalil Morpho Sys, Version 1.3, 2011, un open source http://www.alecso.org.tn/index.phpoption=com_content&task=view&id=1302& Itemid=956&lang=a.Nous avons obtenu des résultats encourageants avec un F-Measure de plus de 80%.

Mots clés: TALA, analyseur morphologique ALKHALIL, méthode de désambigüisation, diacritisation, méthode multicritère d’aide à la décision (AMD), segmentation, exploration contextuelle, étiquetage, Réseaux de transition augmenté(ATN)

English Title: A morpho-lexical disambiguation approach using Alkhalil morphological analyser

English Abstract

Out of any context, most words have several meanings and several functions. The lexical disambiguation, for instance, consists of selecting the right meaning of a polysemic word in a given context. Several methods and approaches exist at all level of disambiguation : could it be morphological, lexical or semantic (in case of language processing) but as far as Arabic is concerned, ambiguity persists because of the non-diacritisation of words. In order to considerably reduce the ambiguity rate, we propose in this article a disambiguation approach based on the selection of the right diacritics at different analyses stages. This approach combines between a linguistic approach and a multicriteria decision one and could be regarded as a choice alternative to solve the morpho-lexical ambiguity problem regardless of the diacritics rate of the processed text. As to its evaluation, we have tried the disambiguation of the on-line Alkhalil morphological analyzer (the proposed approach can be experienced on any morphological analyzer of arabic language). Alkhalil Morpho Sys, 1.3, 2011 is an open source. We have obtained encouraging results with an F-measure of more than 80 percent.

Keywords: TALA, Alkhalil morphological analyzer, disambiguation method, diacritisation, Approach to Multicriteria Decision (AMD), segmentation, contextual exploration, tagging, augmented transition networks (ATN)


Journal Identifiers


eISSN: 1111-0015