Grammatikalische Analyse deutschsprachiger Texte

Technologie

Die gadt Technologie basiert auf linguistischen Textanalyseverfahren, die es ermöglichen, syntaktische und semantische Merkmale für das Erkennen und Kategorisieren von relevanten Informationen in Texten zu nutzen.

Das Verfahren greift dabei auf viele Systemebenen der deutschen Sprache und ihrer Grammatik zu.

Morphemebene

Die kleinsten bedeutungstragenden Einheiten der Sprache sind die Morpheme. Sie sind die Grundlage des Wortschatzes. Aus ihnen setzen sich einfache und komplexe Wörter zusammen bzw. lassen sich neue Wortarten (Ableitungen und Konversion) bilden. Zur Wortbildung zählen weiter die Flexion, die Fugenregel, die Bindestrichregeln und die Kompositatauglichkeit.

Das System analysiert die Wörter und stellt die Informationen zur Wortbildung für eine weitere Verarbeitung zur Verfügung.

Wortebene

Die Basis des gadt Systems bildet das Wortlexikon. Es enthält alle Einheiten (Lexeme) des deutschen allgemeinsprachlichen Wortschatzes sowie Mehrwortgefüge und Abkürzungen.

Zu diesen Lexemen sind morphologische, syntaktische und semantische Informationen hinterlegt.

Das Lexikon verfügt ferner über ein Eigennamenlexikon.

Darin sind enthalten: Personennamen, geographische Namen, Körperschaftsnamen, Namen von Lokalitäten, Produktnamen und römische Zahlen. Parallel dazu kann ein Benutzerwörterbuch angelegt werden, welches das Grundlexikon durch die eigene Eingabe von Lexemen um fachsprachliche Ausdrücke etc. ergänzt.

Das System liefert für jedes Wort die jeweiligen morphologischen, semantischen und syntaktischen Informationen und stellt dies für eine weitere Verarbeitung zur Verfügung.

Satzebene

Auf der Satzebene werden die Satzglieder und Teilsatzglieder bestimmt (Subjekt, Objekt, Prädikat sowie Adverbialbestimmungen).

Das System liefert für jeden Satz die Informationen über die Satzglieder und stellt diese für eine weitere Verarbeitung zur Verfügung.