Protokoll des 43. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 25. Juni 1988

Allgemeine Information

Empfehlungen des Wissenschaftsrates zur Ausstattung der Hochschulen mit Rechenkapazität in den Jahren 1989-1994

Im März dieses Jahres haben Professoren und Mitarbeiter aus fünf Fakultäten in einem Brief an den Präsidenten der Universität Tübingen ihre Besorgnis ausgedrückt, daß bei künftigen Beschaffungsmaßnahmen auf Grund der Empfehlungen des Wissenschaftsrates die EDV-gestützte Forschung in den Geisteswissenschaften auf vielen Gebieten erheblich geschwächt würde.

Der Präsident hat im Mai in einem Brief an den Vorsitzenden des Wissenschaftsrates, Prof. Kochsiek, diese Bedenken weitergegeben und darauf hingewiesen, daß für die Geisteswissenschaften außer der Ausstattung mit vollwertigen, auf die Bedürfnisse dieses Nutzerkreises zugeschnittenen Arbeitsplatzrechnern auch der Zugang zu lokalen und überregionalen Netzen und der Zugang zu leistungsfähigen Zentralrechnern erforderlich sei. Diese Voraussetzungen seien wichtig, damit die Geisteswissenschaften mit der internationalen Entwicklung Schritt halten können.

Computergestützte Wörterbucharbeit

Paul Sappler (Deutsches Seminar)

Hilfsmittel für Lemmatisierung

Im Teilprojekt "Rechnergestützte Lexikographie und Registerherstellung" des vom Land Baden-Württemberg finanzierten Forschungsschwerpunkts "Wissenschaftliche Textdatenverarbeitung" geht es unter anderem um Hilfen für die Lemmatisierung von Wortindices, Konkordanzen und Registern sowie für die Bearbeitung von Indexmaterial in Richtung auf die freie, d.h. philologisch orientierte Gestaltung von Wörterbuchartikeln. Mechanisch hergestellte Rohindices und -konkordanzen mögen für manche Fragestellungen ihren Wert haben, man sollte aber auf längere Sicht doch von ihnen wegkommen, die EDV-Erzeugnisse durch philologische Bearbeitung anspruchsvolleren Wörterbüchern ähnlicher machen und so die Kluft zwischen zwei nebeneinanderherlaufenden lexikographischen Traditionen verkleinern.

Um TUSTEP in dieser Hinsicht auszubauen, werden spezifische Anwendungen von TUSTEP-Standardbausteinen und auch neue Programmbausteine entwickelt. Diese Programme sind unter Verwendung der TUSTEP-Unterprogramme in FORTRAN geschrieben und passen sich so in die TUSTEP-Umgebung ein. Es wäre ja nicht rationell, ein Programmsystem für die genannten speziellen Aufgaben isoliert, ohne den Rückhalt eines leistungsfähigen und flexiblen allgemeineren Programmsystems aufzubauen (schon alle die sinnvoll anzuwendenden Textanalysemöglichkeiten, die ein solches bereithält, lassen sich nicht einfach nacherfinden), und es ist TUSTEP, das sich als Grundlage und Rahmen dafür sehr bewährt. Damit ist auch die Entscheidung für einen bestimmten Benutzer gefallen: für den Philologen, der einerseits nicht sehr tief in die Technik einzudringen braucht, andererseits aber gewisse Forderungen an Flexibilität und Problemnähe stellt und das komplexe Werkzeug selbstverantwortlich verständig und geschickt einsetzt.

Zur Flexibilität gehört, daß das spezielle Programmsystem zur Lemmatisierung und Artikelgestaltung variabel ist bezüglich der Kodierung der Textgrundlage, der programmrelevanten Kennungen im Text des entstehenden Wörterbuchs oder Registers, der Kombinierbarkeit der Bausteine und der ganzen Wörterbuch- und Artikelstruktur. Wörterbücher sind ja nicht genormt, Wörterbucharbeit soll nicht zu schematisch sein, und es ist gut, wenn sich Strukturen des Wörterbuchs und seiner Teile erst während der Arbeit herauskristallisieren dürfen. Dies gilt besonders für ein Bedeutungswörterbuch, in dem sich semantische, syntaktische und kollokative wie auch grammatische und pragmatische Gesichtspunkte eigentümlich durchdringen, so z.B. für den ersten Anwendungsfall, ein in Arbeit befindliches Wörterbuch zum "Tristan" des Gottfried von Straßburg.

Das System hat zwei Hauptteile, einen für die Lemmatisierung und einen für die Fein-Ausgestaltung der Artikel. Beide werden bei der Arbeit an einem Wörterbuch ringförmig durchlaufen, wobei sich der anfangs mechanisch erzeugte Index bei jedem Durchlauf stärker dem schließlichen Wörterbuch nähert, ein Verfahren, das nicht zu viel Umgestaltung in einen einzigen Arbeitsschritt hineinpackt.

Für den Lemmatisierungsteil, der allein, ohne die anschließenden Schritte, auch für die Herstellung eines Registers benützt werden kann, sind zwei Dinge kennzeichnend:

Erstens wird die Lemmatisierungsinformation mitsamt beliebigem "Kommentar" (etwa dem Wörterbuchtext ohne die Belegstellen) unabhängig von der Textgrundlage aufbewahrt, und zwar in einem "Gerüst", welches Lemmazeichen (Hauptlemmata), die Wortformen der Textgrundlage und eben den Kommentar einschließlich Steuerzeichen enthält; zugrundeliegender Text und Gerüst werden zum Index bzw. Register zusammengeführt. Günstig ist, daß dies öfters geschehen kann, ohne daß über die mechanische Erzeugung hinausgehender Arbeitsaufwand jeweils verlorengehen muß, daß die Lemmatisierung vorbereitet werden kann, bevor die Textgrundlage gänzlich in ihre endgültige Form gebracht ist, und daß ein Gerüst teilweise für andere Texte wiederverwendet werden kann.
Zweitens wird - zur Kontrolle der Zuordnungen der Belegstellen - der Index bzw. das Wörterbuch jeweils zur Konkordanz aufgeschwellt, und zwar durch Zugabe wiederum des Textes der Grundlage, damit dort erfolgte Veränderungen wie auch eventuell solche an den Belegstellen des Index aufgefangen werden. Die Konkordanz ist, aus praktischen Gründen in kleinere Gruppen von Artikeln zerlegt, Ausgangspunkt für die weitere redigierende Bearbeitung: Hier ist der Ort für Homographentrennung (sofern sie nicht schon mittels Markierungen im zugrundeliegenden Text erledigt ist) wie auch für die strukturierende und darstellende Durchsetzung philologischen Judiciums.

Es ist geplant, die Programme im TUSTEP-Zusammenhang an Interessierte weiterzugeben.

Wolfram Schneider-Lastin (Deutsches Seminar)

Hilfsmittel für die freie Gestaltung eines Wörterbuchartikels

Die Elektronische Datenverarbeitung (EDV) stellt für die Produktion von Formwörterbüchern - Indices und Konkordanzen - inzwischen leistungsfähige und flexibel einsetzbare Programme zur Verfügung. Bislang ohne ausreichende maschinelle Unterstützung befand sich indessen ein Lexikograph bei dem Vorhaben, den Wortschatz eines Autors oder Werks auch semantisch aufzuarbeiten. Dieser Schritt von den mit elektronischer Hilfe erstellten Indices und Konkordanzen zum rechnergestützten Bedeutungswörterbuch ist nicht zuletzt durch den Mangel an geeigneter Software bisher nicht getan worden. Es finden sich zwar einige Beispiele von Wörterbüchern, bei denen die EDV als Hilfsmittel (zur Segmentierung der Textvorlage, zum Sortieren der Belege, zur Satzvorbereitung etc.) eingesetzt wurde; die eigentliche philologische Arbeit, die Aufbereitung des Belegmaterials zum fertigen Artikel, fand jedoch in aller Regel außerhalb des Rechners statt; der Bearbeiter eines Bedeutungswörterbuchs sah seine Gestaltungs- und Kommentierungsfreiheit bisher offenbar nur in der herkömmlichen manuellen Arbeitsweise gewährleistet.

Um für das Abfassen der einzelnen Artikel eines Wörterbuches auch die Unterstützung des Computers nutzbar zu machen, wurde innerhalb des von Paul Sappler vorgestellten Systems ein gesonderter Programmbaustein konzipiert. Von diesem Programm wurden u.a. folgende Leistungen erwartet:

Es sollte dem Bearbeiter eines Artikels ermöglichen, die Belege, d.h. Belegtexte und Belegstellen, nach seinen Vorstellungen anzuordnen und sie während der Arbeit schnell und ohne Aufwand umzustellen.
Der Bearbeiter sollte in die Lage versetzt werden, den Umfang eines Belegtextes in jedem einzelnen Fall schnell und ohne Aufwand zu bestimmen und festzulegen.
Das Programm sollte ihm erlauben, an jeder Stelle eines Artikels Kommentare von beliebiger Länge anzubringen.
Ein so beschaffenes Programm sollte andererseits eine Veränderung oder den Verlust von Belegstellen unmöglich machen; und es sollte
soweit als möglich verhindern, daß Verschreibungen in den Belegtexten auftreten.

Bei der Vorführung am Terminal wurde am Beispiel des entstehenden Tristan-Wörterbuches gezeigt, wie die ebengenannten Anforderungen von dem neuen Programmbaustein mit dem (vorläufigen) Namen XART unterstützt und eingelöst werden. Im Rahmen dieses Protokolls ist es jedoch nicht möglich, alle Details dieses Arbeitsprozesses darzustellen.

Ausgangspunkt für die Bearbeitung eines Artikels ist eine, bereits mit einem vorangehenden Baustein des Systems erstellte, lemmatisierte Konkordanz. Aus dieser werden einer oder auch mehrere zu bearbeitende Artikel (und das bedeutet zu diesem Zeitpunkt: jeweils ein Lemma plus seine nach den Unterlemmata angeordneten Belege) in eine Datei kopiert, die "Hintergrunddatei" genannt wird. Beim Herauskopieren werden die Daten in verschiedene Felder (Heimatadresse des Artikels, Lemma, Unterlemma, Kontext etc.) eingeteilt, welche zum Zweck ihrer späteren Identifizierung durch XART unterschiedliche Feldkennungen bekommen. Diese Datei ist jedoch nicht Gegenstand der Bearbeitung, sondern dient als stets präsentes Kontrollmittel. Die gesamte Arbeit am Artikel erfolgt in einer Kopie der Hintergrunddatei, der sogenannten "Arbeitsdatei".

Die wichtigsten Operationen in der Arbeitsdatei und die damit verbundenen Funktionen von XART sind:

Das Ordnen oder Umstellen der Belege:
Die angestrebte Gliederung der Belege eines Artikels nach semantischen oder syntaktischen Kriterien macht in den meisten Fällen eine grundlegende Änderung der Anordnung gegenüber der unbearbeiteten Version erforderlich. Dies geschieht nun nicht etwa durch ein mühevolles Hin- und Herkopieren der zahlreichen Belege, sondern allein durch die einfache Veränderung einer jedem Beleg automatisch beigegebenen Ordnungszahl. Das eigentliche Umgruppieren und Umsortieren in die gewollte Reihenfolge besorgt erst das Programm XART, das jedoch beliebig oft und zu jedem Zeitpunkt der Bearbeitung gestartet werden kann. Der Bearbeiter hat so die Möglichkeit, schnell und ohne technischen Aufwand die gewünschte Ordnung des Artikels herzustellen, das Ergebnis immer wieder zu überprüfen, zu verfeinern oder zu verwerfen.
Der Eintrag von Kommentaren:
Bemerkungen des Bearbeiters zu Morphologie, Semantik, Syntax, Lesarten, Forschungsdiskussion etc. können an jeder Stelle des Artikels in beliebigem Umfang (mit einer entsprechenden Feldkennung) eingefügt werden und werden von XART entsprechend verwaltet. Dabei sind verschiedene Kommentartypen möglich, etwa auch interne Überlegungen des Bearbeiters, die zwar die ganze Zeit über mitgeführt, jedoch nicht im fertigen Artikel gedruckt werden sollen.
Die Abgrenzung des Belegtextes:
In aller Regel entspricht der rein mechanisch abgetrennte Kontext zu einer Belegstelle nicht dem Umfang des Textzitats, wie es im fertigen Artikel erscheinen soll. Hier wurde eine Möglichkeit gefunden, die es dem Bearbeiter erlaubt, seinen Belegtext ohne Mühe abzugrenzen: Er markiert im Kontext, der ihm auf dem Bildschirm in wählbarem Umfang zur Verfügung gestellt wird, Anfang und Ende des gewünschten Zitats durch zwei entsprechende Feldkennungen. Das übrige erledigt XART: Es eliminiert die überflüssig gewordenen Kontextreste, holt den alten Kontext aus der Hintergrunddatei und stellt ihn unversehrt und in seinem bisherigen Umfang als zusätzliche Kontrolle hinter den ausgewählten Belegtext.
Das Verdoppeln einer Belegstelle:
Soll eine Belegstelle an mehr als einem Ort im Artikel erscheinen, so wird sie, um Fehler zu vermeiden, nicht vom Bearbeiter selbst, sondern (nach einfachem Setzen einer Kennung) vom Programm verdoppelt und an die gewünschte Adresse gesetzt.

Ist die Bearbeitung eines Artikels abgeschlossen, wird er an seinen Ursprungsort in der Konkordanz zurückkopiert, genauer: es wird dort die alte unbearbeitete Version durch die aktuelle bearbeitete ersetzt. Im Laufe der Arbeit an den Artikeln nimmt so die Konkordanz nach und nach die Gestalt des späteren Wörterbuches an.

Zum Schluß seien die wesentlichsten Funktionen des Bausteins XART nochmals zusammengefaßt:

Ziel des Programms, das während der Arbeit an einem Artikel beliebig oft gestartet werden kann, ist die Herstellung einer aktualisierten Version sowohl der Hintergrund- wie der Arbeitsdatei. Zu diesem Zweck vergleicht XART diese beiden Dateien bzw. wählt aus ihnen die jeweils gültigen Felder in der Weise aus, wie dies über Parameter vom Bearbeiter verlangt wird. So werden bestimmte Felder, die nicht verändert werden dürfen (z.B. Lemma, Belegstelle), zuerst daraufhin geprüft, ob sie in beiden Dateien übereinstimmen, bevor sie für die neue Version der Hintergrunddatei übernommen werden. Andere Felder werden gleich entweder aus der Arbeitsdatei oder der Hintergrunddatei geholt: aus der Arbeitsdatei z.B. der abgegrenzte Belegtext und die Kommentare, aus der Hintergrunddatei dagegen stets das unversehrte Kontextfeld. Weitere Möglichkeiten, wie das Übergehen oder das Merken von bestimmten Feldern, seien nur erwähnt. Die ausgewählten und die neugebildeten Felder werden von XART gemischt und geprüft. Danach werden die Einheiten nach der Ordnungszahl sortiert, und die neue Version der Hintergrunddatei erstellt. Zuletzt legt XART auch eine neue Arbeitsdatei an, und die Bearbeitung des Artikels kann in der geschilderten Weise fortgeführt werden.

(Die Kurzfassungen der Referate wurden von den Referenten zur Verf�gung gestellt.)

Zur Übersicht über die bisherigen Kolloquien

tustep@zdv.uni-tuebingen.de - Stand: 21. August 2003