
Protokoll des 35. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 23. November 1985
Allgemeine Informationen
Aus Anlaß des letzten Ferienkurses "Textdatenverarbeitung für Anfänger" im September 1985 wurde erstmals eine fast vollständige TUSTEP-Beschreibung als Broschüre herausgegeben.Für den beim 34. Kolloquium vorgestellten Forschungsschwerpunkt "Wissenschaftliche Textdatenverarbeitung" am ZDV Tübingen wurden inzwischen weitere Geräte in Betrieb genommen:
- ein KDEM-Omnifont-Leser, mit dem gedruckte Texte in verschiedenen Schriftarten und -größen, auch aus Büchern, eingelesen und maschinenlesbar gespeichert werden können;
- ein Laserdrucker QMS Lasergraphics 2400 mit großem Zeichenvorrat und guter Druckqualität.
Gerd Willée (Institut für Kommunikationsforschung und Phonetik (IKP), Universität Bonn)
Lemmatisierungsprobleme am Beispiel des Deutschen
1. Definition von und Verfahren zur automatischen Lemmatisierung
"Unter Lemmatisierung versteht man in einer gängigen Sprechweise die (automatische) Zurückführung von (flexions-)morphologisch zusammengehörigen Textwortformen auf eine normierte Schriftfolge." (WEBER76: 30)Diese Definition setzt voraus, daß zunächst die Wortklasse(n) der betr. Wortformen bestimmt worden ist, da sonst eine Zuweisung der normierten Schriftfolge im Falle von Homographie nicht möglich ist.
Zusammensetzungen wie Hochhaus, Bindestrichkomposita wie Bindestrich-Ehe oder Ableitungen wie Verschiffung von Schiff, blutig von Blut werden als eigene Lemmata geführt.
Es handelt sich also um eine Klassenbildung, d.h. eine Zusammenfassung von flexionsmorphologisch zusammengehörigen Wortformen mit gleicher syntaktischer Funktion zu einer Klasse, wobei ein sprachabhängig verschieden definierter Lemma-Name als "Etikett" zugeordnet wird.
Es gibt verschiedene Ansätze, ein Lemma inhaltlich zu definieren, die diesem Ansatz genügen. Ein Lemma soll hier Informationen über den Wortlaut, die Morphologie und Syntax enthalten; Semantik soll ausgeklammert bleiben (vgl. den Ansatz von ALLEN76).
Man unterscheidet zwischen einer wortformenbezogenen und einer satzbezogenen Lemmatisierung, je nachdem, ob für die Lemmatisierung Informationen aus dem Satzkontext mit herangezogen werden (etwa zur Homographenvereindeutigung) oder nicht. Dabei basiert eine satzbezogene Lemmatisierung immer auf einer wortformenbezogenen Lemmatisierung, d.h.: Informationen aus dem Kontext werden jeweils nur dann herangezogen, wenn die Wortform allein nicht genügend Bestimmungsmöglichkeiten bietet.
Algorithmen zur automatischen Lemmatisierung lassen sich außerdem danach unterscheiden, ob ein Lexikon als wesentlicher Informationsträger herangezogen wird oder ob die notwendigen Informationen hauptsächlich über morphologisch fundierte Regeln aus den zu lemmatisierenden Wortformen stammen.
Bei allen beschriebenen Verfahren findet sich eine Zweiteilung in einen Identifikationsteil zur Bestimmung der Wortklassenzugehörigkeit und in einen Deflexions- bzw. Zuweisungsteil zur Generierung der zugehörigen Grundform (des Lemma-Namens). Diese Zweiteilung ist unabhängig vom Typ der Lemmatisierung.
Lemmatisierungsverfahren, die für große Datenmengen geeignet sind, wie die Lemmatisierungskomponente von CONDOR (vgl. CONDOR74) oder LEMMA2 (vgl. WILLEE84) arbeiten im wesentlichen wortformenbezogen unter Verwendung kleiner Vollformen- und Stammlexika, die die Elemente der geschlossenen Wortklassen und ggf. hochfrequente unregelmäßige Wortformen enthalten. Eine einfache Satzkontextanalyse ermöglicht dann noch die Vereindeutigung und Bestimmung eines Teils der homographen Wortformen.
2. Zweck und Sinn von Lemmatisierung
Um statistische Untersuchungen von Texten in Bezug auf die enthaltenen Segmente auf der Ebene der Wörter zu machen, muß man sich vor Augen halten, wie extrem asymmetrisch die Häufigkeitsverteilung der verschiedenen Wortformen eines Textes im Normalfall ist: Zwischen 70 und 80 Prozent aller Wortformen kommen nur einmal vor, im Schnitt kommen alle Wortformen ca. 5-7 mal vor, und nur ca. 5 Prozent erscheinen häufiger als dieser Durchschnitt.Durch eine Zusammenfassung der einzelnen Wortformen-Types zu Lemmata läßt sich das Wortmaterial weit gründlicher analysieren, etwa für stilistische und semantische Zwecke. Untersuchungen über den Umfang von Wortschätzen, über die semantische Struktur von Texten, aber etwa auch über den Aufbau von Wortschätzen in Sprachlehrwerken basieren in der Regel auf den Lemmata und nicht auf deren Repräsentanten, den Wortformen. Auch Autorenschaftsuntersuchungen und Textsortenvergleiche lassen sich mit lemmatisierten Texten wesentlich fundierter durchführen.
Die Berechtigung zum Computereinsatz ergibt sich aus der zumindest in weiten Teilen vorhandenen Regelhaftigkeit beim Prozeß der Lemmatisierung. Sobald solche Regelhaftigkeiten erkannt sind, lassen sich Algorithmen definieren, anhand derer diese Prozesse durchgeführt werden können; Algorithmen wiederum lassen sich in Computerprogramme umsetzen.
3. Lemmatisierung im Deutschen
Es lassen sich vier Typen von Lemma-Klassen unterscheiden:- Ein Lemmaname bezeichnet eine Klasse von Wortformen,
die regelmäßig gebildet werden, d.h. deren Flexionsformen
von einem Wortstamm abgeleitet werden.
Beispiele: Schiff, legen, laut.
Dieser Fall tritt im Deutschen am häufigsten auf. - Ein Lemmaname bezeichnet eine Klasse von Wortformen,
deren Flexionsformen von mehreren Stämmen abgeleitet
werden (suppletiv gebildete Lemmata).
Beispiele: Starke Verben wie etwa trinken, das Verb sein, Substantive, deren Plurale mit Umlaut gebildet werden wie etwa Stadt, Adjektive mit umgelauteten bzw. noch anderweitig abgeänderten Steigerungsformen wie stark, gut oder hoch.
- Ein Lemmaname bezeichnet mehrere Klassen von Wortformen
(Homographie), wobei die verschiedenen Klassen sich im
Flexionsmuster unterscheiden können
(Beispiel: Wort - Wörter vs. Wort - Worte),
in der syntaktischen Funktion(Beispiel: sein Possessivpronomen vs. sein Verb),
oder aber auch in der möglichen Abtrennung von Präverbien bei Verben(Beispiel: übersetzen - setzt ... über vs. übersetzen - übersetzt).
- Gewisse Klassen von flexionsmorphologisch zusammengehörigen Wortformen haben keinen gängigen bzw. eindeutigen Lemmanamen, z.B. die Formen des bestimmten Artikels.
- Wortform schönster: Bestimmung als Adjektiv
aufgrund der Endung, d.h. des Endmorphems bzw. der
Endmorphemgruppe, hier -ster, Bestimmung: u.a. als
"Nom.Sing.Mask.Sup.Unbest." des
Adjektivs "SCHÖN". Lemmaname: SCHÖN, nach der Regel:
Lemmaname = flektierte Adjektivform ohne Flexiv(-gruppe).
Eindeutige Lemmatisierung, da die Kombination der Flexive -st- und -er nur bei Adjektiven möglich ist. - Wortform achten: Eindeutige Lemmatisierung wie bei a. nicht ohne eine syntaktische Analyse möglich, da es sich sowohl um ein Verb als auch um ein Adjektiv handeln kann (der Fall Substantiv bleibt wegen der Großschreibung ausgeklammert): Homographie.
- Präverbienabtrennbarkeit: Hier werden verschiedene Wortformen gleichen Lemmanamen zugeordnet (Beispiel: führt ... über und überführt haben als Lemmaname "ÜBERFÜHREN").
Lemmatisierung kann für verschiedene Fragestellungen sinnvoll sein. Eine systematische Beschreibung einer Sprache erfordert auch eine Systematisierung der zu dieser Sprache gehörenden Wortformen, die u.a. nach syntaktischen Wortklassen geschehen kann, wobei die von den Sprechern dieser Sprache als flexionsmorphologisch zusammengehörig aufgefaßten Wortformen zu Klassen, also zu Lemmata zusammengefaßt werden können.
Die Generierung solcher Wortklassen - im Gegensatz zu der gerade erwähnten Beschreibung - auf algorithmischem Weg ist ein anderer Weg zur Lemmatisierung.
4. Beschreibung von LEMMA2
LEMMA2 ist ein Algorithmus zur wortformenbezogenen Lemmatisierung deutscher Wortformen. Er leistet folgendes:Die zu bearbeitenden Wortformen werden hinsichtlich ihrer syntaktischen Wortklasse bestimmt, wobei im Fall von Homographien entweder lediglich der Fall "Homographie" vermerkt wird, bei zweideutigen Wortformen eine entsprechende Angabe oder aber eine der Möglichkeiten gewählt wird, die aufgrund des zur Evaluierung herangezogenen Materials als die häufiger anzutreffende erscheint. Aufgrund der Information aus der Graphie und der Wortklasse wird dann über Regeln der zugehörige Lemmaname generiert. Bei nicht-zusammengesetzten Verbformen wird (optional) noch eine Bestimmung nach Tempus, Numerus, Person und Modus durchgeführt. Der Algorithmus ist von den darin angewendeten Verfahren her ein Mischtyp.
Das aus dem Algorithmus abgeleitete Programm ist in PL/I geschrieben und umfaßt ca. 2.600 Instruktionen. Es verarbeitet in der aktuellen Version auf einem Rechner vom Typ IBM 3081K ca. 2.000 lfd. Textwortformen pro CPU-Sekunde, bei einer (textsortenabhängigen) Fehlerquote von unter 10 Prozent.
Das Programm ist sehr flexibel in bezug auf eine mögliche Anpassung an spezifische Besonderheiten von zu bearbeitenden Texten und kann über den Autor bezogen werden.
Literatur
ALLEN76: | Allén, Sture: Lexical Entry, Linguistic Sign and Lexical Data Base.- Vortrag International Conference on Computational Linguistics (COLING) 78 |
CONDOR74: | CONDOR-Forschungsbericht. München 1974 |
KRAUSE-WILLEE81: | Krause, Wolfgang; Willée, Gerd: Lemmatizing German Newspaper Texts with the Aid of an Algorithm. In: Computers and the Humanities (CHUM) 15 (1981) S. 101-113 |
SCHULZE-WILLEE83: | Schulze, Wolfgang; Willée, Gerd: Noch eine Variation über das Thema: "LEMMA".- In: Sprache und Datenverarbeitung (SDv) 7 (1983) H. 1/2, S. 40-46 |
WEBER76: | Weber, Heinz Josef: Automatische Lemmatisierung. In: Linguistische Berichte Nr.44 (1976) S. 30-47 |
WILLEE79: | Willée, Gerd: LEMMA - ein Programmsystem zur automatischen Lemmatisierung deutscher Wortformen. In: Sprache und Datenverarbeitung (SDv) 3 (1979) H. 1/2, S. 45-60 |
WILLEE84: | Willée, Gerd: Das Programmsystem LEMMA2 - eine Weiterentwicklung von LEMMA. IKP-Arbeitsbericht (Abt. LDV) Nr. 2, Bonn 1984 (Als Manuskript veröffentlicht) |
WILLEE85: | Willée, Gerd: Das Bonner Lexikonsystem BONNLEX1. IKP-Arbeitsbericht (Abt. LDV) Nr. 6, Bonn 1985 (Als Manuskript veröffentlicht) |
Diskussion
Es wird vorgeschlagen, für die Lemmatisierung ein Lexikon aller möglichen Wortformen zu erstellen und die zu lemmatisierenden Wortformen dort maschinell zu vergleichen. Dagegen spricht, daß eine Generierung aller möglicher Wortformen unökonomisch ist, weil das Vorkommen der Wortformen asymmetrisch verteilt ist; d.h. daß sehr viele mögliche Wortformen überhaupt nicht vorkommen und nur sehr wenige Wortformen häufig vorkommen.Die zu lemmatisierenden Wortformen werden zuerst alphabetisch sortiert; jede Wortform wird dann nur einmal analysiert.
Als Wortformen sind die Zeichenfolgen zwischen Blank definiert. Bindestrichwörter und Mehrwortgruppen müssen z.B. separat behandelt werden.
Der Begriff Lemmatisierung kann formelhaft als dreistufige
Funktion umschrieben werden:
Ein Type ist diejenige Wortform, die beliebig viele identisch geschriebene Wortformen (= Token) eines
Textes repräsentiert. Durch die Disambiguierung
unterscheidet man homonyme, also bedeutungsverschiedene,
aber graphematisch identische Types. Zum Beispiel:
Solche Homographien lassen sich mittels einer
Indexziffer und einer Bedeutungsumschreibung
differenzieren. Die Entscheidung, wieweit Disambiguierung
getrieben wird, hängt letztlich vom Verwendungszweck der
Konkordanz, des Index oder des Wörterbuchs ab. Sie bleibt
somit eine rein philologisch/linguistische Aufgabe, die
schwerlich an einen Computer "delegiert" werden kann.
Deflexion ist der Vorgang der Änderung aller
Flexionsmerkmale dahingehend, daß ein Type in seine
Grundform ungewandelt wird. Welches die Grundform einer
Wortform ist, findet man durch grammatische oder
lexikographische Konventionen geregelt.
Emendation ist ein Begriff aus der Editionstechnik und besagt, daß durch verschiedene Ursachen
hervorgerufene Fehler im Schriftbild eines Textes im
Hinblick auf eine normgerechte Repräsentation ausgebessert werden.
Während die Deflexion weitgehend durch algorithmische
Verfahren machbar ist, trifft dies für Emendation und
Disambiguierung nur beschränkt zu. Hier bleibt die
Kompetenz des Philologen gefragt.
Das Lemma ist das "Endprodukt", aber auch hierunter kann noch dreierlei verstanden werden:
Im Programmsystem LEM gilt der Lemmabegriff im
erstgenannten Sinn. Die Bezeichnung "Grundform" wird
manchmal anstelle von "Lemma" verwendet.
Eine andere Art "Lemmatisierung", die LEM ermöglicht,
besteht darin, statt Grundformen mit
grammatisch/morphologischer Information, jedem Token einen
thematischen Deskriptor zuzuordnen, dessen Verbindung
mit den Wortformen des Textes über ein Wörterbuch
operationalisiert ist. Das Resultat könnte man eine
"thematische Konkordanz" nennen.
LEM ist eingebettet in die LDVLIB-Systemumgebung: Es setzt
eine mit dem Konkordanzpaket KWI einmal erstellte
Textsegmentierung voraus, deren Ergebnis eine Systemdatei
ist, aus der LEM die benötigte Text- und
Kontextinformation auf den Bildschirm bringt:
Lemmatisierung ist "kontextsensitiv" in zwei Dimensionen -
horizontal in der Linie des Textes, vertikal in der
Menge identischer Wortformen. Dies entspricht der
konventionellen Arbeitsweise des Philologen mit
Textausgabe und Konkordanz. Der eigentliche "Arbeitsplatz"
hat daher folgendes Aussehen:
Jede Konkordanzzeile im Mittelfeld steht für genau ein
Token im Text. Mit Funktionstasten kann eine umfangreiche
Kontextmenge zu jeder Textstelle auf den Bildschirm
gebracht werden. Dies sollte in der Regel für die
Disambiguierung ausreichen. Zwischen den Pfeilen ">" und
"<" ist provisorisch eine "1" sichtbar. Diese Ziffer
dient der Verknüpfung der Tokens mit dem 1.
Wörterbucheintrag, der als Lemmavorschlag im unteren Teile
des Bildschirms erscheint. Liegt ein mehrdeutiges Lemma
vor, erscheinen aufsteigend numerierte Lemmata, die über
ihre Ziffer mit den entsprechenden Token verknüpft werden müssen.
Das automatische Suchen von Lemmavorschlägen im
Wörterbuch ersetzt den Zettelkasten des Philologen, mit
dem er sein (korpusbezogenes) Wörterbuch aufbaut. Wird
eine Lemmatisierung arbeitsteilig durchgeführt, bildet das
im Hintergrund wachsende Wörterbuch eine allen gemeinsam
zugängliche Informationsquelle. Nicht vorhandene
Einträge brauchen nur einmal ergänzt zu werden. Das
Wörterbuch ist die einzige sprachspezifische Komponente
bei LEM, sie ist daher austauschbar.
Das Resultat der Lemmatisierung, eine Umorganisation nach
Lemmata und Token, erfolgt durch einen Batchjob, wodurch in
Minutenschnelle die Ergebnisse mit LDVLIB-KWI je nach
Stand der Arbeit wieder sichtbar werden. Diese bestehen
aber nicht nur aus dem lemmatisierten Text- und
Konkordanzmaterial, sondern das entstandene Wörterbuch
dokumentiert lexikographische Leistung - auch und
insbesondere für neue Projekte.
LDVLIB ist ein integriertes Programmpaket zur
computergestützten Textanalyse. Es ist in PL/1 geschrieben
und läuft auf IBM-Großrechnern unter MVS und TSO.
Raimund Drewek (Ernst Klett Mediendienste, Stuttgart)
Interaktives Lemmatisieren mit LDVLIB-LEM -
eine sprachunabhängige Arbeitsumgebung für den Philologen
Lemmatisierung ist eine der intelligenteren
Aufgabenstellungen für die computergestützte Textanalyse.
Eine unzulängliche grammatische und semantische Analyse
des Wortschatzes eines Textes führt zu unbefriedigenden
Resultaten in der Erstellung von Konkordanzen, Indizes
oder Wörterbüchern. Die Automatisierung der
Lemmatisierung ist eine Fiktion, die der Sprache als
historischem und sozialem Phänomen in ihrer
Veränderlichkeit ebensowenig gerecht wird wie
unterschiedlichen Ansprüchen an eine Textanalyse. Deshalb
wurde mit dem Programm LEM eine interaktive Lösung
realisiert, die eine sinnvolle Aufgabenteilung
zwischen Mensch und Maschine anstrebt.
Lemma = DEFLEXION ( DISAMBIGUIERUNG ( EMENDATION ( Type ) ) )
Aufgabe (Problemstellung)
- Aufgabe (Kapitulation) haben (Hilfsverb)
- haben (Vollverb)
Bedeutung von "Lemma"
Beispiel
eine einzige Grundform
Bank (Geldinstitut)
die Reihe aller einer Grundform zugeordneten Wortformen
haben (1): hat, habe, hätte, gehabt ...
alle (Bedeutungs-)Varianten einer Grundform
Bank (1), Bank (2)
Diskussion
Bei der interaktiven Lemmatisierung erhält jedes Token
eine eigene Referenz. Bei verschiedenen Textsorten, z.B.
bei Editionen, wo sich der Text durch die Bearbeitung
noch verändern kann, ist eine stabile Referenz nicht
möglich; sie ließe sich nur durch ein vom Umbruch
unabhängiges Referenzsystem (z.B. Bibel) erreichen.
(Die Kurzfassungen der Referate wurden von den Referenten zur Verf�gung gestellt.)
Zur
Übersicht über die bisherigen Kolloquien
tustep@zdv.uni-tuebingen.de - Stand: 17. März 2003