Zur Darstellung eines mehrstufigen Prototypbegriffs in der multilingualen automatischen Sprachgenerierung: vom Korpus über word embeddings bis hin zum automatischen Wörterbuch

Towards the Description of a Multi-sided Prototype Concept in Multilingual Automatic Language Generation: From Corpus via Word Embeddings to the Automatic Dictionary.

  • María José Domínguez Vázquez
Keywords: nlg: natural language generation, automatisches wör-terbuch, interaktives wörterbuch, sprachgeneratoren, korpuslexikogra-phie, ontologie, prototyp, lexikalischer prototyp, semantische proto-typische klassen, nlg: natural language generation, automatic dictionary, interactive dictionary, language generators, corpus lexicography, ontology, prototype, lexical prototype, semantic prototypical classes

Abstract

Das multilinguale Wörterbuch zur Substantivvalenz Portlex gilt als Ausgangpunkt für die Entstehung der automatischen Sprachgeneratoren Xera und Combinatoria, deren Entwicklung und Handhabung hier präsentiert wird. Beide Prototypen dienen zur automa-tischen Generierung von Nominalphrasen mit ihren mono- und biargumentalen Valenzstellen, die u.a. als Wörterbuchbeispiele oder als integrierte Bestandteile künftiger autonomer E-Learning-Tools eine Anwendung finden könnten. Als Modelle für neuartige automatische Valenzwörter-bücher mit Benutzerinteraktion fassen wir die Sprachgeneratoren in ihrem heutigen Zustand auf.
Bei dem spezifischen methodologischen Verfahren zur Entwicklung der Sprachgeneratoren stellt sich die syntaktisch-semantische Beschreibung der vom Valenzträger eröffneten Leerstellen aus syntagmatischer und paradigmatischer Sicht als Schwerpunkt heraus. Zusammen mit Faktoren wie der Repräsentativität, der grammatischen Korrektheit, der semantischen Kohärenz, der Fre-quenz und der Vielfältigkeit der lexikalischen Kandidaten sowie der semantischen Klassen und der Argumentstrukturen, die feste Bestandteile beider Ressourcen sind, sticht ein mehrschichtiger Proto-typsbegriff hervor. Die kombinierte Anwendung dieses Prototypbegriffs sowie von word embeddings zeigt zusammen mit Techniken aus dem Gebiet der maschinellen Verarbeitung und Generation natürlicher Sprache (NLP und NLG) einen neuen Weg zur künftigen Entwicklung von automatisch generierten plurilingualen Valenzwörterbüchern.
Insgesamt stellt der Beitrag die Sprachgeneratoren sowohl aus der Perspektive ihrer Ent-wicklung als auch aus Nutzersicht dar. Der Fokuss wird auf die Rolle des Prototypbegriffs bei der Entwicklung der Ressourcen gelegt.

The multilingual dictionary of noun valency Portlex is considered to be the trigger for the creation of the automatic language generators Xera and Combinatoria, whose development and use is presented in this paper. Both prototypes are used for the automatic generation of nominal phrases with their mono- and bi-argumental valence slots, which could be used, among others, as dictionary examples or as integrated components of future autonomous E-Learning-Tools. As samples for new types of automatic valency dictionaries in-cluding user interaction, we consider the language generators as we know them today.
In the specific methodological procedure for the development of the language generators, the syntactic-semantic description of the noun slots turns out to be the main focus from a syntagmatic and paradigmatic point of view. Along with factors such as representativeness, grammatical cor-rectness, semantic coherence, frequency and the variety of lexical candidates, as well as semantic classes and argument structures, which are fixed components of both resources, a concept of a multi-sided prototype stands out. The combined application of this prototype concept as well as of word embeddings together with techniques from the field of automatic natural language processing and generation (NLP and NLG) opens up a new way for the future development of automatically generated plurilingual valency dictionaries.
All things considered, the paper depicts the language generators both from the point of view of their development as well as from that of the users. The focus lies on the role of the prototype concept within the development of the resources.

Published
2021-09-30
Section
Articles

Journal Identifiers


eISSN: 2224-0039
print ISSN: 1684-4904