
Protokoll des 43. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 25. Juni 1988
Allgemeine Information
Empfehlungen des Wissenschaftsrates zur Ausstattung der Hochschulen mit Rechenkapazität in den Jahren 1989-1994
Im März dieses Jahres haben Professoren und Mitarbeiter aus fünf Fakultäten in einem Brief an den Präsidenten der Universität Tübingen ihre Besorgnis ausgedrückt, daß bei künftigen Beschaffungsmaßnahmen auf Grund der Empfehlungen des Wissenschaftsrates die EDV-gestützte Forschung in den Geisteswissenschaften auf vielen Gebieten erheblich geschwächt würde.
Der Präsident hat im Mai in einem Brief an den
Vorsitzenden des Wissenschaftsrates, Prof. Kochsiek, diese
Bedenken weitergegeben und darauf hingewiesen, daß für
die Geisteswissenschaften außer der Ausstattung mit
vollwertigen, auf die Bedürfnisse dieses Nutzerkreises
zugeschnittenen Arbeitsplatzrechnern auch der Zugang zu
lokalen und überregionalen Netzen und der Zugang zu
leistungsfähigen Zentralrechnern erforderlich sei. Diese
Voraussetzungen seien wichtig, damit die
Geisteswissenschaften mit der internationalen Entwicklung
Schritt halten können.
Computergestützte Wörterbucharbeit
Paul Sappler (Deutsches Seminar)
Hilfsmittel für Lemmatisierung
Im Teilprojekt "Rechnergestützte Lexikographie und Registerherstellung" des vom Land Baden-Württemberg finanzierten Forschungsschwerpunkts "Wissenschaftliche Textdatenverarbeitung" geht es unter anderem um Hilfen für die Lemmatisierung von Wortindices, Konkordanzen und Registern sowie für die Bearbeitung von Indexmaterial in Richtung auf die freie, d.h. philologisch orientierte Gestaltung von Wörterbuchartikeln. Mechanisch hergestellte Rohindices und -konkordanzen mögen für manche Fragestellungen ihren Wert haben, man sollte aber auf längere Sicht doch von ihnen wegkommen, die EDV-Erzeugnisse durch philologische Bearbeitung anspruchsvolleren Wörterbüchern ähnlicher machen und so die Kluft zwischen zwei nebeneinanderherlaufenden lexikographischen Traditionen verkleinern.Um TUSTEP in dieser Hinsicht auszubauen, werden spezifische Anwendungen von TUSTEP-Standardbausteinen und auch neue Programmbausteine entwickelt. Diese Programme sind unter Verwendung der TUSTEP-Unterprogramme in FORTRAN geschrieben und passen sich so in die TUSTEP-Umgebung ein. Es wäre ja nicht rationell, ein Programmsystem für die genannten speziellen Aufgaben isoliert, ohne den Rückhalt eines leistungsfähigen und flexiblen allgemeineren Programmsystems aufzubauen (schon alle die sinnvoll anzuwendenden Textanalysemöglichkeiten, die ein solches bereithält, lassen sich nicht einfach nacherfinden), und es ist TUSTEP, das sich als Grundlage und Rahmen dafür sehr bewährt. Damit ist auch die Entscheidung für einen bestimmten Benutzer gefallen: für den Philologen, der einerseits nicht sehr tief in die Technik einzudringen braucht, andererseits aber gewisse Forderungen an Flexibilität und Problemnähe stellt und das komplexe Werkzeug selbstverantwortlich verständig und geschickt einsetzt.
Zur Flexibilität gehört, daß das spezielle Programmsystem zur Lemmatisierung und Artikelgestaltung variabel ist bezüglich der Kodierung der Textgrundlage, der programmrelevanten Kennungen im Text des entstehenden Wörterbuchs oder Registers, der Kombinierbarkeit der Bausteine und der ganzen Wörterbuch- und Artikelstruktur. Wörterbücher sind ja nicht genormt, Wörterbucharbeit soll nicht zu schematisch sein, und es ist gut, wenn sich Strukturen des Wörterbuchs und seiner Teile erst während der Arbeit herauskristallisieren dürfen. Dies gilt besonders für ein Bedeutungswörterbuch, in dem sich semantische, syntaktische und kollokative wie auch grammatische und pragmatische Gesichtspunkte eigentümlich durchdringen, so z.B. für den ersten Anwendungsfall, ein in Arbeit befindliches Wörterbuch zum "Tristan" des Gottfried von Straßburg.
Das System hat zwei Hauptteile, einen für die Lemmatisierung und einen für die Fein-Ausgestaltung der Artikel. Beide werden bei der Arbeit an einem Wörterbuch ringförmig durchlaufen, wobei sich der anfangs mechanisch erzeugte Index bei jedem Durchlauf stärker dem schließlichen Wörterbuch nähert, ein Verfahren, das nicht zu viel Umgestaltung in einen einzigen Arbeitsschritt hineinpackt.
Für den Lemmatisierungsteil, der allein, ohne die anschließenden Schritte, auch für die Herstellung eines Registers benützt werden kann, sind zwei Dinge kennzeichnend:
- Erstens wird die Lemmatisierungsinformation mitsamt beliebigem "Kommentar" (etwa dem Wörterbuchtext ohne die Belegstellen) unabhängig von der Textgrundlage aufbewahrt, und zwar in einem "Gerüst", welches Lemmazeichen (Hauptlemmata), die Wortformen der Textgrundlage und eben den Kommentar einschließlich Steuerzeichen enthält; zugrundeliegender Text und Gerüst werden zum Index bzw. Register zusammengeführt. Günstig ist, daß dies öfters geschehen kann, ohne daß über die mechanische Erzeugung hinausgehender Arbeitsaufwand jeweils verlorengehen muß, daß die Lemmatisierung vorbereitet werden kann, bevor die Textgrundlage gänzlich in ihre endgültige Form gebracht ist, und daß ein Gerüst teilweise für andere Texte wiederverwendet werden kann.
- Zweitens wird - zur Kontrolle der Zuordnungen der Belegstellen - der Index bzw. das Wörterbuch jeweils zur Konkordanz aufgeschwellt, und zwar durch Zugabe wiederum des Textes der Grundlage, damit dort erfolgte Veränderungen wie auch eventuell solche an den Belegstellen des Index aufgefangen werden. Die Konkordanz ist, aus praktischen Gründen in kleinere Gruppen von Artikeln zerlegt, Ausgangspunkt für die weitere redigierende Bearbeitung: Hier ist der Ort für Homographentrennung (sofern sie nicht schon mittels Markierungen im zugrundeliegenden Text erledigt ist) wie auch für die strukturierende und darstellende Durchsetzung philologischen Judiciums.
Es ist geplant, die Programme im TUSTEP-Zusammenhang an
Interessierte weiterzugeben.
Um für das Abfassen der einzelnen Artikel eines
Wörterbuches auch die Unterstützung des Computers
nutzbar zu machen, wurde innerhalb des von Paul Sappler
vorgestellten Systems ein gesonderter Programmbaustein
konzipiert. Von diesem Programm wurden u.a. folgende
Leistungen erwartet:
Ausgangspunkt für die Bearbeitung eines Artikels ist
eine, bereits mit einem vorangehenden Baustein des Systems
erstellte, lemmatisierte Konkordanz. Aus dieser werden
einer oder auch mehrere zu bearbeitende Artikel (und das
bedeutet zu diesem Zeitpunkt:
jeweils ein Lemma plus seine nach den Unterlemmata
angeordneten Belege) in eine Datei kopiert, die
"Hintergrunddatei" genannt wird. Beim Herauskopieren
werden die Daten in verschiedene Felder (Heimatadresse des
Artikels, Lemma, Unterlemma, Kontext etc.) eingeteilt,
welche zum Zweck ihrer späteren Identifizierung durch XART
unterschiedliche Feldkennungen bekommen. Diese Datei ist
jedoch nicht Gegenstand der Bearbeitung, sondern dient als
stets präsentes Kontrollmittel. Die gesamte Arbeit am
Artikel erfolgt in einer Kopie der Hintergrunddatei, der
sogenannten "Arbeitsdatei".
Die wichtigsten Operationen in der Arbeitsdatei und die
damit verbundenen Funktionen von XART sind:
Zum Schluß seien die wesentlichsten Funktionen
des Bausteins XART nochmals zusammengefaßt:
Ziel des Programms, das während der Arbeit an einem
Artikel beliebig oft gestartet werden kann, ist die Herstellung
einer aktualisierten Version sowohl der Hintergrund- wie
der Arbeitsdatei. Zu diesem Zweck vergleicht XART diese
beiden Dateien bzw. wählt aus ihnen die jeweils gültigen
Felder in der Weise aus, wie dies über Parameter vom
Bearbeiter verlangt wird. So werden bestimmte Felder, die
nicht verändert werden dürfen (z.B. Lemma, Belegstelle),
zuerst daraufhin geprüft, ob sie in beiden Dateien
übereinstimmen, bevor sie für die neue Version der
Hintergrunddatei übernommen werden. Andere Felder werden
gleich entweder aus der Arbeitsdatei oder der
Hintergrunddatei geholt: aus der Arbeitsdatei z.B. der
abgegrenzte Belegtext und die Kommentare, aus der
Hintergrunddatei dagegen stets das unversehrte Kontextfeld.
Weitere Möglichkeiten, wie das Übergehen oder
das Merken von bestimmten Feldern, seien nur erwähnt. Die
ausgewählten und die neugebildeten Felder werden von XART
gemischt und geprüft. Danach werden die Einheiten nach der
Ordnungszahl sortiert, und die neue Version der
Hintergrunddatei erstellt. Zuletzt legt XART auch eine
neue Arbeitsdatei an, und die Bearbeitung des Artikels
kann in der geschilderten Weise fortgeführt werden.
Wolfram Schneider-Lastin (Deutsches Seminar)
Hilfsmittel für die freie Gestaltung eines Wörterbuchartikels
Die Elektronische Datenverarbeitung (EDV) stellt für die
Produktion von Formwörterbüchern - Indices und
Konkordanzen - inzwischen leistungsfähige und flexibel
einsetzbare Programme zur Verfügung. Bislang ohne
ausreichende maschinelle Unterstützung befand sich
indessen ein Lexikograph bei dem Vorhaben, den Wortschatz
eines Autors oder Werks auch semantisch aufzuarbeiten.
Dieser Schritt von den mit elektronischer Hilfe erstellten
Indices und Konkordanzen zum rechnergestützten
Bedeutungswörterbuch ist nicht zuletzt durch den Mangel an
geeigneter Software bisher nicht getan worden. Es finden
sich zwar einige Beispiele von Wörterbüchern, bei
denen die EDV als Hilfsmittel (zur Segmentierung der
Textvorlage, zum Sortieren der Belege, zur
Satzvorbereitung etc.) eingesetzt wurde; die eigentliche
philologische Arbeit, die Aufbereitung des Belegmaterials
zum fertigen Artikel, fand jedoch in aller Regel außerhalb
des Rechners statt; der Bearbeiter eines
Bedeutungswörterbuchs sah seine Gestaltungs- und
Kommentierungsfreiheit bisher offenbar nur in der
herkömmlichen manuellen Arbeitsweise gewährleistet.
Bei der Vorführung am Terminal wurde am Beispiel des
entstehenden Tristan-Wörterbuches gezeigt, wie die
ebengenannten Anforderungen von dem neuen Programmbaustein
mit dem (vorläufigen) Namen XART unterstützt und eingelöst
werden. Im Rahmen dieses Protokolls ist es jedoch nicht
möglich, alle Details dieses Arbeitsprozesses darzustellen.
Ist die Bearbeitung eines Artikels abgeschlossen, wird er
an seinen Ursprungsort in der Konkordanz zurückkopiert,
genauer: es wird dort die alte unbearbeitete Version durch
die aktuelle bearbeitete ersetzt. Im Laufe der Arbeit an
den Artikeln nimmt so die Konkordanz nach und nach die
Gestalt des späteren Wörterbuches an.
Die angestrebte Gliederung der Belege eines Artikels nach
semantischen oder syntaktischen Kriterien macht in den
meisten Fällen eine grundlegende Änderung der
Anordnung gegenüber der unbearbeiteten Version
erforderlich. Dies geschieht nun nicht etwa
durch ein mühevolles Hin- und Herkopieren der zahlreichen
Belege, sondern allein durch die einfache Veränderung
einer jedem Beleg automatisch beigegebenen Ordnungszahl.
Das eigentliche Umgruppieren und Umsortieren in die
gewollte Reihenfolge besorgt erst das Programm XART, das
jedoch beliebig oft und zu jedem Zeitpunkt der Bearbeitung
gestartet werden kann. Der Bearbeiter hat so die
Möglichkeit, schnell und ohne technischen Aufwand die
gewünschte Ordnung des Artikels herzustellen, das Ergebnis
immer wieder zu überprüfen, zu verfeinern oder zu verwerfen.
Bemerkungen des Bearbeiters zu Morphologie, Semantik,
Syntax, Lesarten, Forschungsdiskussion etc. können an
jeder Stelle des Artikels in beliebigem Umfang (mit einer
entsprechenden Feldkennung) eingefügt werden und werden
von XART entsprechend verwaltet. Dabei sind verschiedene
Kommentartypen möglich, etwa auch interne Überlegungen des
Bearbeiters, die zwar die ganze Zeit über mitgeführt,
jedoch nicht im fertigen Artikel gedruckt werden sollen.
In aller Regel entspricht der rein mechanisch abgetrennte
Kontext zu einer Belegstelle nicht dem Umfang des
Textzitats, wie es im fertigen Artikel erscheinen soll.
Hier wurde eine Möglichkeit gefunden, die es dem
Bearbeiter erlaubt, seinen Belegtext ohne Mühe
abzugrenzen: Er markiert im Kontext, der ihm auf dem
Bildschirm in wählbarem Umfang zur Verfügung gestellt
wird, Anfang und Ende des gewünschten Zitats durch zwei
entsprechende Feldkennungen. Das übrige erledigt XART: Es
eliminiert die überflüssig gewordenen Kontextreste,
holt den alten Kontext aus der Hintergrunddatei und stellt ihn
unversehrt und in seinem bisherigen Umfang als zusätzliche
Kontrolle hinter den ausgewählten Belegtext.
Soll eine Belegstelle an mehr als einem Ort im Artikel
erscheinen, so wird sie, um Fehler zu vermeiden, nicht vom
Bearbeiter selbst, sondern (nach einfachem Setzen einer
Kennung) vom Programm verdoppelt und an die gewünschte
Adresse gesetzt.
(Die Kurzfassungen der Referate wurden von den Referenten zur Verf�gung gestellt.)
Zur
Übersicht über die bisherigen Kolloquien
tustep@zdv.uni-tuebingen.de - Stand: 21. August 2003