Lösungen
Die gadt Technologie kann als Basis für folgende Produktlösungen verwendet werden:
Rechtschreibprüfung
Das gadt System unterteilt die möglichen Rechtschreibfehler in folgende Gruppen:
- Wörter, die den deutschen Wortbildungsregeln nicht entsprechen z.B. Abkürzungen wie „BMW“.
- Teilwörter, die den deutschen Wortbildungsregeln nicht entsprechen z.B. Wortzusammensetzungen wie „BMW-Vorstand“.
- Wortzusammensetzungen, die zwar den Wortbildungsregeln entsprechen, aber nicht im gadt-Lexikon gespeichert sind.
- Die unbekannten Wörter werden in einer Liste gespeichert, jedes Wort ist nur einmalig in der Liste vorhanden. Klickt man auf ein Wort in dieser Liste, werden alle Vorkommen im Text farblich markiert und hervorgehoben.
- Aufgrund dieser Handhabung ist eine viel bessere Übersicht über mögliche Rechtschreibfehler gegeben, als bei herkömmlichen Systemen. Gerade bei Texten, die sehr viele Eigennamen beinhalten, ist dies von großem Vorteil.
Personen-Zitat-Extraktion aus Fließtexten
Das gadt System extrahiert aus einem Fließtext (z.B. Nachrichtentext) Personen sowie Zitate von Personen, so fern welche vorhanden sind. Des weitern wird, falls diese Informationen vorhanden sind, die Funktion sowie die Institution angegeben, die dieser Person zugeordnet ist.
Wurden Zitate extrahiert, wird zusätzlich die Einstellung des Sprechers zum Zitat bewertet (neutral, positiv, negativ).
Mit diesen Informationen kann beispielsweise eine Zitat-Datenbank erstellt werden. Folgende Abfragen wären möglich:
„Gebe alle positiven Zitate von Personen einer bestimmten Institution X über ein bestimmtes Thema Y aus“.
„Gebe alle Zitate einer bestimmten Institution X über ein bestimmtes Thema Y aus“
Aufgrund der speziellen Analysen auf der Wort- und Satzebene ist eine Kategorisierung mit dem gadt System erheblich genauer als mit einem System, welches auf rein statistischen Methoden beruht. Gerade für Sprachen mit einer starken Deklination und Konjugation wie das Deutsche ist die linguistische Reduzierung auf die Grundform die wesentlich bessere Methode als das „Stemming“, bei der einfach eine bestimmte Anzahl von Buchstaben am Ende des Wortes gekappt werden. Ein weiterer Vorteil des Systems ist die Zerlegung von zusammengesetzten Hauptwörtern (Komposita) in ihre Einzelwörter, was ebenfalls zu einer besseren Kategorisierung eines Textes führt.
HTML zu Text Konverter
Das gadt System erkennt, ob es sich bei einem vorliegenden Dokument tatsächlich um einen Text handelt, oder ob das Dokument etwas anderes ist (z.B. Börsenlisten, Aktienkurse, Quellcode einer Programmiersprache etc.).
Diese Funktionalität ist interessant für einen Web-Crawler, da dadurch die zu indizierenden Textmengen um ein vielfaches reduziert werden können.
Eigennamengenerator (Markennamen)
Das gadt System verfügt über alle Wortbildungsregeln der deutschen Sprache. Dadurch ist es auch möglich, neue Worte zu erfinden, die den Regeln der deutschen Sprache entsprechen und somit auch aussprechbar sind.
Über bestimmte Einstellungen der phonetischen Parameter (helle, dunkle, kurze oder lange Laute) sowie die Anzahl der Silben kann die zu generierende Menge der Eigennamen gezielt gewählt werden.
