TUSTEP

Protokoll des 35. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 23. November 1985

Allgemeine Informationen

Aus Anlaß des letzten Ferienkurses "Textdatenverarbeitung für Anfänger" im September 1985 wurde erstmals eine fast vollständige TUSTEP-Beschreibung als Broschüre herausgegeben.

Für den beim 34. Kolloquium vorgestellten Forschungsschwerpunkt "Wissenschaftliche Textdatenverarbeitung" am ZDV Tübingen wurden inzwischen weitere Geräte in Betrieb genommen:

ein KDEM-Omnifont-Leser, mit dem gedruckte Texte in verschiedenen Schriftarten und -größen, auch aus Büchern, eingelesen und maschinenlesbar gespeichert werden können;
ein Laserdrucker QMS Lasergraphics 2400 mit großem Zeichenvorrat und guter Druckqualität.

Gerd Willée (Institut für Kommunikationsforschung und Phonetik (IKP), Universität Bonn)

Lemmatisierungsprobleme am Beispiel des Deutschen

1. Definition von und Verfahren zur automatischen Lemmatisierung

"Unter Lemmatisierung versteht man in einer gängigen Sprechweise die (automatische) Zurückführung von (flexions-)morphologisch zusammengehörigen Textwortformen auf eine normierte Schriftfolge." (WEBER76: 30)

Diese Definition setzt voraus, daß zunächst die Wortklasse(n) der betr. Wortformen bestimmt worden ist, da sonst eine Zuweisung der normierten Schriftfolge im Falle von Homographie nicht möglich ist.

Zusammensetzungen wie Hochhaus, Bindestrichkomposita wie Bindestrich-Ehe oder Ableitungen wie Verschiffung von Schiff, blutig von Blut werden als eigene Lemmata geführt.

Es handelt sich also um eine Klassenbildung, d.h. eine Zusammenfassung von flexionsmorphologisch zusammengehörigen Wortformen mit gleicher syntaktischer Funktion zu einer Klasse, wobei ein sprachabhängig verschieden definierter Lemma-Name als "Etikett" zugeordnet wird.

Es gibt verschiedene Ansätze, ein Lemma inhaltlich zu definieren, die diesem Ansatz genügen. Ein Lemma soll hier Informationen über den Wortlaut, die Morphologie und Syntax enthalten; Semantik soll ausgeklammert bleiben (vgl. den Ansatz von ALLEN76).

Man unterscheidet zwischen einer wortformenbezogenen und einer satzbezogenen Lemmatisierung, je nachdem, ob für die Lemmatisierung Informationen aus dem Satzkontext mit herangezogen werden (etwa zur Homographenvereindeutigung) oder nicht. Dabei basiert eine satzbezogene Lemmatisierung immer auf einer wortformenbezogenen Lemmatisierung, d.h.: Informationen aus dem Kontext werden jeweils nur dann herangezogen, wenn die Wortform allein nicht genügend Bestimmungsmöglichkeiten bietet.

Algorithmen zur automatischen Lemmatisierung lassen sich außerdem danach unterscheiden, ob ein Lexikon als wesentlicher Informationsträger herangezogen wird oder ob die notwendigen Informationen hauptsächlich über morphologisch fundierte Regeln aus den zu lemmatisierenden Wortformen stammen.

Bei allen beschriebenen Verfahren findet sich eine Zweiteilung in einen Identifikationsteil zur Bestimmung der Wortklassenzugehörigkeit und in einen Deflexions- bzw. Zuweisungsteil zur Generierung der zugehörigen Grundform (des Lemma-Namens). Diese Zweiteilung ist unabhängig vom Typ der Lemmatisierung.

Lemmatisierungsverfahren, die für große Datenmengen geeignet sind, wie die Lemmatisierungskomponente von CONDOR (vgl. CONDOR74) oder LEMMA2 (vgl. WILLEE84) arbeiten im wesentlichen wortformenbezogen unter Verwendung kleiner Vollformen- und Stammlexika, die die Elemente der geschlossenen Wortklassen und ggf. hochfrequente unregelmäßige Wortformen enthalten. Eine einfache Satzkontextanalyse ermöglicht dann noch die Vereindeutigung und Bestimmung eines Teils der homographen Wortformen.

2. Zweck und Sinn von Lemmatisierung

Um statistische Untersuchungen von Texten in Bezug auf die enthaltenen Segmente auf der Ebene der Wörter zu machen, muß man sich vor Augen halten, wie extrem asymmetrisch die Häufigkeitsverteilung der verschiedenen Wortformen eines Textes im Normalfall ist: Zwischen 70 und 80 Prozent aller Wortformen kommen nur einmal vor, im Schnitt kommen alle Wortformen ca. 5-7 mal vor, und nur ca. 5 Prozent erscheinen häufiger als dieser Durchschnitt.

Durch eine Zusammenfassung der einzelnen Wortformen-Types zu Lemmata läßt sich das Wortmaterial weit gründlicher analysieren, etwa für stilistische und semantische Zwecke. Untersuchungen über den Umfang von Wortschätzen, über die semantische Struktur von Texten, aber etwa auch über den Aufbau von Wortschätzen in Sprachlehrwerken basieren in der Regel auf den Lemmata und nicht auf deren Repräsentanten, den Wortformen. Auch Autorenschaftsuntersuchungen und Textsortenvergleiche lassen sich mit lemmatisierten Texten wesentlich fundierter durchführen.

Die Berechtigung zum Computereinsatz ergibt sich aus der zumindest in weiten Teilen vorhandenen Regelhaftigkeit beim Prozeß der Lemmatisierung. Sobald solche Regelhaftigkeiten erkannt sind, lassen sich Algorithmen definieren, anhand derer diese Prozesse durchgeführt werden können; Algorithmen wiederum lassen sich in Computerprogramme umsetzen.

3. Lemmatisierung im Deutschen

Es lassen sich vier Typen von Lemma-Klassen unterscheiden:

Ein Lemmaname bezeichnet eine Klasse von Wortformen, die regelmäßig gebildet werden, d.h. deren Flexionsformen von einem Wortstamm abgeleitet werden.
Beispiele: Schiff, legen, laut.
Dieser Fall tritt im Deutschen am häufigsten auf.
Ein Lemmaname bezeichnet eine Klasse von Wortformen, deren Flexionsformen von mehreren Stämmen abgeleitet werden (suppletiv gebildete Lemmata).
Beispiele: Starke Verben wie etwa trinken, das Verb sein, Substantive, deren Plurale mit Umlaut gebildet werden wie etwa Stadt, Adjektive mit umgelauteten bzw. noch anderweitig abgeänderten Steigerungsformen wie stark, gut oder hoch.
Ein Lemmaname bezeichnet mehrere Klassen von Wortformen (Homographie), wobei die verschiedenen Klassen sich im Flexionsmuster unterscheiden können
(Beispiel: Wort - Wörter vs. Wort - Worte),
in der syntaktischen Funktion
(Beispiel: sein Possessivpronomen vs. sein Verb),
oder aber auch in der möglichen Abtrennung von Präverbien bei Verben
(Beispiel: übersetzen - setzt ... über vs. übersetzen - übersetzt).
Gewisse Klassen von flexionsmorphologisch zusammengehörigen Wortformen haben keinen gängigen bzw. eindeutigen Lemmanamen, z.B. die Formen des bestimmten Artikels.

Dieser Sachverhalt ist durch die eingangs zitierte Definition von Weber nur ungefähr abgedeckt; eine genauere Betrachtung des Komplexes Lemma und des Prozesses der Lemmatisierung bietet sich daher an:

Wortform schönster: Bestimmung als Adjektiv aufgrund der Endung, d.h. des Endmorphems bzw. der Endmorphemgruppe, hier -ster, Bestimmung: u.a. als "Nom.Sing.Mask.Sup.Unbest." des Adjektivs "SCHÖN". Lemmaname: SCHÖN, nach der Regel: Lemmaname = flektierte Adjektivform ohne Flexiv(-gruppe).
Eindeutige Lemmatisierung, da die Kombination der Flexive -st- und -er nur bei Adjektiven möglich ist.
Wortform achten: Eindeutige Lemmatisierung wie bei a. nicht ohne eine syntaktische Analyse möglich, da es sich sowohl um ein Verb als auch um ein Adjektiv handeln kann (der Fall Substantiv bleibt wegen der Großschreibung ausgeklammert): Homographie.
Präverbienabtrennbarkeit: Hier werden verschiedene Wortformen gleichen Lemmanamen zugeordnet (Beispiel: führt ... über und überführt haben als Lemmaname "ÜBERFÜHREN").

Die letztgenannten Fälle sind nur durch eine Satzstrukturanalyse zu vereindeutigen und müssen in einem Lexikon als je separate Lemmata aufgeführt werden.

Lemmatisierung kann für verschiedene Fragestellungen sinnvoll sein. Eine systematische Beschreibung einer Sprache erfordert auch eine Systematisierung der zu dieser Sprache gehörenden Wortformen, die u.a. nach syntaktischen Wortklassen geschehen kann, wobei die von den Sprechern dieser Sprache als flexionsmorphologisch zusammengehörig aufgefaßten Wortformen zu Klassen, also zu Lemmata zusammengefaßt werden können.

Die Generierung solcher Wortklassen - im Gegensatz zu der gerade erwähnten Beschreibung - auf algorithmischem Weg ist ein anderer Weg zur Lemmatisierung.

4. Beschreibung von LEMMA2

LEMMA2 ist ein Algorithmus zur wortformenbezogenen Lemmatisierung deutscher Wortformen. Er leistet folgendes:

Die zu bearbeitenden Wortformen werden hinsichtlich ihrer syntaktischen Wortklasse bestimmt, wobei im Fall von Homographien entweder lediglich der Fall "Homographie" vermerkt wird, bei zweideutigen Wortformen eine entsprechende Angabe oder aber eine der Möglichkeiten gewählt wird, die aufgrund des zur Evaluierung herangezogenen Materials als die häufiger anzutreffende erscheint. Aufgrund der Information aus der Graphie und der Wortklasse wird dann über Regeln der zugehörige Lemmaname generiert. Bei nicht-zusammengesetzten Verbformen wird (optional) noch eine Bestimmung nach Tempus, Numerus, Person und Modus durchgeführt. Der Algorithmus ist von den darin angewendeten Verfahren her ein Mischtyp.

Das aus dem Algorithmus abgeleitete Programm ist in PL/I geschrieben und umfaßt ca. 2.600 Instruktionen. Es verarbeitet in der aktuellen Version auf einem Rechner vom Typ IBM 3081K ca. 2.000 lfd. Textwortformen pro CPU-Sekunde, bei einer (textsortenabhängigen) Fehlerquote von unter 10 Prozent.

Das Programm ist sehr flexibel in bezug auf eine mögliche Anpassung an spezifische Besonderheiten von zu bearbeitenden Texten und kann über den Autor bezogen werden.

Literatur

ALLEN76:	Allén, Sture: Lexical Entry, Linguistic Sign and Lexical Data Base.- Vortrag International Conference on Computational Linguistics (COLING) 78
CONDOR74:	CONDOR-Forschungsbericht. München 1974
KRAUSE-WILLEE81:	Krause, Wolfgang; Willée, Gerd: Lemmatizing German Newspaper Texts with the Aid of an Algorithm. In: Computers and the Humanities (CHUM) 15 (1981) S. 101-113
SCHULZE-WILLEE83:	Schulze, Wolfgang; Willée, Gerd: Noch eine Variation über das Thema: "LEMMA".- In: Sprache und Datenverarbeitung (SDv) 7 (1983) H. 1/2, S. 40-46
WEBER76:	Weber, Heinz Josef: Automatische Lemmatisierung. In: Linguistische Berichte Nr.44 (1976) S. 30-47
WILLEE79:	Willée, Gerd: LEMMA - ein Programmsystem zur automatischen Lemmatisierung deutscher Wortformen. In: Sprache und Datenverarbeitung (SDv) 3 (1979) H. 1/2, S. 45-60
WILLEE84:	Willée, Gerd: Das Programmsystem LEMMA2 - eine Weiterentwicklung von LEMMA. IKP-Arbeitsbericht (Abt. LDV) Nr. 2, Bonn 1984 (Als Manuskript veröffentlicht)
WILLEE85:	Willée, Gerd: Das Bonner Lexikonsystem BONNLEX1. IKP-Arbeitsbericht (Abt. LDV) Nr. 6, Bonn 1985 (Als Manuskript veröffentlicht)

Diskussion

Es wird vorgeschlagen, für die Lemmatisierung ein Lexikon aller möglichen Wortformen zu erstellen und die zu lemmatisierenden Wortformen dort maschinell zu vergleichen. Dagegen spricht, daß eine Generierung aller möglicher Wortformen unökonomisch ist, weil das Vorkommen der Wortformen asymmetrisch verteilt ist; d.h. daß sehr viele mögliche Wortformen überhaupt nicht vorkommen und nur sehr wenige Wortformen häufig vorkommen.

Die zu lemmatisierenden Wortformen werden zuerst alphabetisch sortiert; jede Wortform wird dann nur einmal analysiert.

Als Wortformen sind die Zeichenfolgen zwischen Blank definiert. Bindestrichwörter und Mehrwortgruppen müssen z.B. separat behandelt werden.

Raimund Drewek (Ernst Klett Mediendienste, Stuttgart)

Interaktives Lemmatisieren mit LDVLIB-LEM - eine sprachunabhängige Arbeitsumgebung für den Philologen

Lemmatisierung ist eine der intelligenteren Aufgabenstellungen für die computergestützte Textanalyse. Eine unzulängliche grammatische und semantische Analyse des Wortschatzes eines Textes führt zu unbefriedigenden Resultaten in der Erstellung von Konkordanzen, Indizes oder Wörterbüchern. Die Automatisierung der Lemmatisierung ist eine Fiktion, die der Sprache als historischem und sozialem Phänomen in ihrer Veränderlichkeit ebensowenig gerecht wird wie unterschiedlichen Ansprüchen an eine Textanalyse. Deshalb wurde mit dem Programm LEM eine interaktive Lösung realisiert, die eine sinnvolle Aufgabenteilung zwischen Mensch und Maschine anstrebt.

Der Begriff Lemmatisierung kann formelhaft als dreistufige Funktion umschrieben werden:

Lemma = DEFLEXION ( DISAMBIGUIERUNG ( EMENDATION ( Type ) ) )

Ein Type ist diejenige Wortform, die beliebig viele identisch geschriebene Wortformen (= Token) eines Textes repräsentiert. Durch die Disambiguierung unterscheidet man homonyme, also bedeutungsverschiedene, aber graphematisch identische Types. Zum Beispiel:

Aufgabe (Problemstellung) - Aufgabe (Kapitulation)

haben (Hilfsverb) - haben (Vollverb)

Solche Homographien lassen sich mittels einer Indexziffer und einer Bedeutungsumschreibung differenzieren. Die Entscheidung, wieweit Disambiguierung getrieben wird, hängt letztlich vom Verwendungszweck der Konkordanz, des Index oder des Wörterbuchs ab. Sie bleibt somit eine rein philologisch/linguistische Aufgabe, die schwerlich an einen Computer "delegiert" werden kann.

Deflexion ist der Vorgang der Änderung aller Flexionsmerkmale dahingehend, daß ein Type in seine Grundform ungewandelt wird. Welches die Grundform einer Wortform ist, findet man durch grammatische oder lexikographische Konventionen geregelt.

Emendation ist ein Begriff aus der Editionstechnik und besagt, daß durch verschiedene Ursachen hervorgerufene Fehler im Schriftbild eines Textes im Hinblick auf eine normgerechte Repräsentation ausgebessert werden.

Während die Deflexion weitgehend durch algorithmische Verfahren machbar ist, trifft dies für Emendation und Disambiguierung nur beschränkt zu. Hier bleibt die Kompetenz des Philologen gefragt.

Das Lemma ist das "Endprodukt", aber auch hierunter kann noch dreierlei verstanden werden:

Bedeutung von "Lemma" Beispiel

eine einzige Grundform Bank (Geldinstitut)

die Reihe aller einer Grundform zugeordneten Wortformen haben (1): hat, habe, hätte, gehabt ...

alle (Bedeutungs-)Varianten einer Grundform Bank (1), Bank (2)

Bedeutung von "Lemma"	Beispiel
eine einzige Grundform	Bank (Geldinstitut)
die Reihe aller einer Grundform zugeordneten Wortformen	haben (1): hat, habe, hätte, gehabt ...
alle (Bedeutungs-)Varianten einer Grundform	Bank (1), Bank (2)

Im Programmsystem LEM gilt der Lemmabegriff im erstgenannten Sinn. Die Bezeichnung "Grundform" wird manchmal anstelle von "Lemma" verwendet.

Eine andere Art "Lemmatisierung", die LEM ermöglicht, besteht darin, statt Grundformen mit grammatisch/morphologischer Information, jedem Token einen thematischen Deskriptor zuzuordnen, dessen Verbindung mit den Wortformen des Textes über ein Wörterbuch operationalisiert ist. Das Resultat könnte man eine "thematische Konkordanz" nennen.

LEM ist eingebettet in die LDVLIB-Systemumgebung: Es setzt eine mit dem Konkordanzpaket KWI einmal erstellte Textsegmentierung voraus, deren Ergebnis eine Systemdatei ist, aus der LEM die benötigte Text- und Kontextinformation auf den Bildschirm bringt:

Lemmatisierung ist "kontextsensitiv" in zwei Dimensionen - horizontal in der Linie des Textes, vertikal in der Menge identischer Wortformen. Dies entspricht der konventionellen Arbeitsweise des Philologen mit Textausgabe und Konkordanz. Der eigentliche "Arbeitsplatz" hat daher folgendes Aussehen:

Jede Konkordanzzeile im Mittelfeld steht für genau ein Token im Text. Mit Funktionstasten kann eine umfangreiche Kontextmenge zu jeder Textstelle auf den Bildschirm gebracht werden. Dies sollte in der Regel für die Disambiguierung ausreichen. Zwischen den Pfeilen ">" und "<" ist provisorisch eine "1" sichtbar. Diese Ziffer dient der Verknüpfung der Tokens mit dem 1. Wörterbucheintrag, der als Lemmavorschlag im unteren Teile des Bildschirms erscheint. Liegt ein mehrdeutiges Lemma vor, erscheinen aufsteigend numerierte Lemmata, die über ihre Ziffer mit den entsprechenden Token verknüpft werden müssen.

Das automatische Suchen von Lemmavorschlägen im Wörterbuch ersetzt den Zettelkasten des Philologen, mit dem er sein (korpusbezogenes) Wörterbuch aufbaut. Wird eine Lemmatisierung arbeitsteilig durchgeführt, bildet das im Hintergrund wachsende Wörterbuch eine allen gemeinsam zugängliche Informationsquelle. Nicht vorhandene Einträge brauchen nur einmal ergänzt zu werden. Das Wörterbuch ist die einzige sprachspezifische Komponente bei LEM, sie ist daher austauschbar.

Das Resultat der Lemmatisierung, eine Umorganisation nach Lemmata und Token, erfolgt durch einen Batchjob, wodurch in Minutenschnelle die Ergebnisse mit LDVLIB-KWI je nach Stand der Arbeit wieder sichtbar werden. Diese bestehen aber nicht nur aus dem lemmatisierten Text- und Konkordanzmaterial, sondern das entstandene Wörterbuch dokumentiert lexikographische Leistung - auch und insbesondere für neue Projekte.

LDVLIB ist ein integriertes Programmpaket zur computergestützten Textanalyse. Es ist in PL/1 geschrieben und läuft auf IBM-Großrechnern unter MVS und TSO.

Diskussion

Bei der interaktiven Lemmatisierung erhält jedes Token eine eigene Referenz. Bei verschiedenen Textsorten, z.B. bei Editionen, wo sich der Text durch die Bearbeitung noch verändern kann, ist eine stabile Referenz nicht möglich; sie ließe sich nur durch ein vom Umbruch unabhängiges Referenzsystem (z.B. Bibel) erreichen.

(Die Kurzfassungen der Referate wurden von den Referenten zur Verf�gung gestellt.)

Zur Übersicht über die bisherigen Kolloquien

tustep@zdv.uni-tuebingen.de - Stand: 17. März 2003

Aufgabe (Problemstellung)	- Aufgabe (Kapitulation)
haben (Hilfsverb)	- haben (Vollverb)