TUSTEP

Aus dem Protokoll des 6. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 15. Februar 1975

Godelieve M.L. Berry-Rogghe (IDS Mannheim)

Untersuchungen von Texten mit Hilfe automatisch erstellter Konkordanzen und ähnlicher Hilfsmittel

Beschreibung der "Standard"-Konkordanz
Eine Konkordanz besteht aus einer alphabetisch sortierten Liste aller Wortformen eines gegebenen Textes, wobei für jede Wortform eine Referenzangabe und eine Kontextzeile zusätzlich ausgedruckt werden. Es gibt zwei Arten von Konkordanzen, je nachdem, wo das Schlüsselwort auf dem Blattschreiber positioniert ist: Beim KWIC (keyword in context) Index wird das Schlüsselwort zentriert ausgedruckt; beim KWOC (keyword out of context) Index fängt jede Zeile auf der ersten linken Spalte des Blattes an. Die Kontextzeilen werden meistens der Reihenfolge nach ausgedruckt, wie sie im Text vorkommen; d.h. sie werden der Referenz nach sortiert.
Programme zur Erstellung solcher "Standard"-Konkordanzen gibt es in den meisten Rechenzentren. Diese Programme sind hauptsächlich nur für die eigene Anlage geschrieben und bieten dem Benutzer nur wenig Möglichkeit zur Variation. Für gewisse Anwendungsbereiche, wie die Textkritik, sind andere Kriterien zur Darstellung und Auswahl der Schlüsselwörter erforderlich. Das Standard-Konkordanz-Paket bietet meistens auch keine Möglichkeit zur flexiblen Kodierung in einem nicht-römischen Alphabet. Am Atlas Computer Laboratory in Chilton, Oxford wurde ein äußerst flexibles und Rechner-unabhängiges Programmpaket zur Erstellung von Konkordanzen und Indizes geschrieben. Dieses Programm heißt COCOA (Concordance and Wordcount Generator on Atlas) und steht den Universitäten und Forschungsinstituten kostenlos zur Verfügung.
Einige Merkmale von COCOA
1. Variable Kontextmenge
  Der Kontext ist der wichtigste Teil einer Konkordanz. Es muß gerade soviel Kontext ausgegeben werden, daß damit die Bedeutung des Schlüsselwortes im Satz erschlossen werden kann, ohne daß zum Originaltext zurückgegriffen werden muß. Die Kontextmenge in einer Standard-Konkordanz besteht meistens entweder aus der Zeile, die das Schlüsselwort enthält, oder aus einer festen Anzahl von Zeichen vor und nach dem Schlüsselwort. Das erste Verfahren ist wohl bei einer Verskonkordanz vorzuziehen, reicht aber bei Prosa nicht aus, denn in einigen Fällen enthält die Zeile nur das Schlüsselwort. Das zweite Verfahren ist zwar für Prosa vorteilhafter, aber die Kontextmenge stellt trotzdem noch keine syntaktische oder semantische Einheit dar. Ein drittes Verfahren besteht darin, den ganzen syntaktischen Satz als Kontextmenge auszugeben. COCOA gibt dem Benutzer die Möglichkeit, aus diesen drei Lösungen die zu wählen, die seinem spezifischen Bedarf am besten entspricht.
2. Flexible Sortierung des Kontextes
  Die Kontexte, in denen das Schlüsselwort vorkommt, werden in den meisten Fällen der Referenz nach sortiert. Diese Reihenfolge ist meistens uninteressant, es sei denn, daß die Chronologie eine Bedeutung hat. COCOA bietet dazu die Möglichkeit einer alphabetischen Sortierung entweder des rechten oder des linken Kontextes des Schlüsselwortes. Auf diese Weise werden idiomatische Verwendungen und häufig zusammen auftretende Wortpaare, wie "kalte Schulter" oder "ohne Rücksicht", aufgezeigt.
3. Selektive und restriktive Auswahl von Schlüsselwörtern
  Ein flexibles Programmpaket muß dem Benutzer eine Vielfalt von Möglichkeiten zur Auswahl und zur Ausschließung gewisser Wortformen bieten. Mit COCOA kann man die Konkordanz auf folgende Weise einschränken:
  - Selektion von gewissen Wortformen (z.B. nur "Politik" und "Partei")
  - Restriktion von Wortformen (z.B. die Ausschließung grammatischer Formen, wie "der", "und" ...)
  - Selektion nach morphologischen Bedingungen (z.B. alle Wörter, die mit be- anfangen, oder die auf -en enden, oder die -ie- enthalten)
  - Selektion/Restriktion nach Häufigkeit (z.B. alle Wörter, die nur einmal, oder alle Wörter, die mehr als 100, aber weniger als 200 Mal erscheinen)
  - Selektion nach Wortlänge (z.B. alle Wörter, die mehr als drei, aber nicht mehr als 20 Buchstaben haben).
4. Auswahl von Schlüsselwort-Paaren
  In gewissen Fällen ist der Forscher nicht nur an einem einzelnen Schlüsselwort interessiert, sondern nur, wenn dieses Schlüsselwort in Verbindung mit einem anderen Wort verwendet wird. Der Benutzer soll dazu angeben, wie groß die Entfernung zwischen beiden Wörtern sein darf.
5. Beliebige Darstellung des Zeicheninventars
  Der Benutzer hat die Möglichkeit, aus allen zur Verfügung stehenden Zeichen zu definieren, welche zu seinem Alphabet gehören, welche Sonderzeichen und welche Worttrennungszeichen sind. Dazu darf ein einziges Graphem durch eine Reihenfolge von mehreren Zeichen dargestellt werden. Die alphabetische Sequenz ist auch frei zu wählen. Folgendes Beispiel ist ein Vorschlag für eine Kodierung des Kyrillischen Alphabets: A,B,V,G,D,YE,ZH,Z,I,Y,K,L,M,N,O,P,R,S,T,U,F,KH,TS,CH,SH,Q,*,IJ,',E,YU,YA.
  In diesem Zusammenhang ist auch die Definition von gewissen diakritischen Zeichen als Sonderzeichen einer speziellen Kategorie zu erwähnen. In den mir bekannten Programmpaketen werden diakritische Zeichen als Elemente des Alphabets betrachtet. Sie werden entweder am Ende oder am Anfang des Alphabets deklariert; oder das Zeichen, das mit einem diakritischen Zeichen versehen ist, wird anders kodiert als das gleiche Zeichen ohne das diakritische Zeichen. In allen Fällen ist das Ergebnis der Sortierung, daß Wortformen, die sich nur durch das diakritische Zeichen unterscheiden, wie im Französischen des, d�s, d�s und im Griechischen "eta", "eta mit spiritus asper", "eta mit iota subscriptum" und "eta mit Akut" in der Konkordanz getrennt erscheinen. COCOA führt eine primäre Sortierung aus, wobei die diakritischen Zeichen entfernt werden; aber bei einer zweiten Sortierung werden sie mit berücksichtigt, sodaß die gewünschte Reihenfolge erhalten wird.
Einige Anwendungsbereiche von Konkordanzen
1. Literatur-Forschung
  Der häufigste Anwendungsbereich für Konkordanzen ist wohl die Literatur-Forschung. Hierbei kann es sich um stilistische Studien handeln, wie z.B. von Naturbeschreibungen bei Shakespeare, oder um eine rein inhaltliche Erschließung, wie ein Studium über die Bedeutung des Begriffes "Synthesis" bei Kant. Außer den schon erwähnten Merkmalen von COCOA, die eine solche Forschung erleichtern, nämlich freie Kodierung und Flexibilität in der Auswahl von Schlüsselwörtern, gibt es auch die Möglichkeit, auf bestimmte Textteile zuzugreifen, insofern diese mit Referenzen versehen sind. Bei einer Forschung über das Theaterstück "Julius Cäsar" wäre es z.B. möglich, nur die Aussagen des Brutus auszuwählen.
2. Syntaktische und morphologische Forschung
  Ein gewisses morphologisches oder syntaktisches Phänomen kann mit Hilfe einer Konkordanz erforscht werden, sofern diese Phänomene an rein graphematischen Merkmalen erkennbar sind, wie die Adverb-Endung -ly im Englischen. Weitere Möglichkeiten mit Hilfe einer Vor-Kodierung des Textes sind natürlich nicht ausgeschlossen.
3. Textkritik
  Es ist die Aufgabe der Textkritik, aus verschiedenen historisch überlieferten Texten eines Werkes die originale Version zu rekonstruieren. Da es sich hier um ältere Manuskripte handelt, muß der Forscher öfters selber einige Wortformen substituieren; andrerseits sind Wörter oft mit Korrekturen versehen. Es muß die Möglichkeit geben, diese Rekonstruktionen, Substituierungen und Korrekturen von originalen Formen zu unterscheiden, aber trotzdem die Wortformen, die das gleiche Wort darstellen, zusammen zu sortieren. In COCOA kann man auch gewisse Sonderzeichen definieren, die bei der Sortierung des Schlüsselwortes nicht mit berücksichtigt werden, aber doch im Kontext ausgedruckt werden; z.B. [E]NTU darf eine rekonstruierte Form vom althochdeutschen ENTU darstellen, wo das "e" nicht mehr lesbar war. Die Konkordanz wird aber beide Formen unter das Schlüsselwort entu ausgeben.
4. Bildung und Unterricht
  Konkordanzen von verschiedenen Textarten können einen großen Beitrag zum Fremdsprachenunterricht liefern. Sie zeigen nicht nur, welche die häufigsten Wörter in einer gewissen stilistischen Gattung sind, sie geben dazu Information über ihre Verwendung. In diesem Zusammenhang möchte ich das Erstellen eines Deutsch-Kurses für Chemiker an der Universität Nottingham erwähnen, der auf einer mit COCOA erzeugten Konkordanz von den wichtigsten chemischen Fachzeitschriften aufbaute.
Schlußbemerkungen über Programme und Corpora
Die folgende Liste vermittelt Informationen mit Adressen von Kontaktpersonen, die über Konkordanzpakete und über vorhandene Texte in maschinell verarbeitbarer Form Auskunft geben können:
Allgemeine Literatur zur automatischen Textanalyse:
- Aitken, A.J. et al.: "The Computer and Literary Studies". Edinburgh: University Press 1973
- Mitchell, J.L. (Ed.): "Computers in the Humanities". Edinburgh: University Press 1974
- Schanze, Helmut (Ed.): "Literatur und Datenverarbeitung". Tübingen: Niemeyer 1972
- Wisbey, R.A. (Ed.): "The Computer in Literary and Linguistic Research". Cambridge: University Press 1971
Dokumentation zu Programm-Paketen und Corpora:
- COCOA Manual (Berry-Rogghe, Godelieve; Crawford, Terry D.)
  Chilton, Didcot: Atlas Computer Laboratory 1973
- ALLC Bulletin
  Mrs. Joan Smith, 6, Sevenoaks Avenue, Heaton Moor, Stockport, Cheshire SK4 4AW, England
- Computers and the Humanities
  SEBD Publications Inc., 380, Saw Mill River Rd, Elmsford, New York 10523, USA
- "BROWN Corpus"
  Miss Rosemary Leonard, Department of English, The University, Lancaster, England
- "IdS Korpus"
  Herr Dr. I. Zifonun, Rechenzentrum, Institut für deutsche Sprache (IdS), Mannheim

Diskussionsbeiträge

Das Programm COCOA wird wahrscheinlich am ZDV Tübingen auch eingesetzt werden. Einfachere Programme zur Indexherstellung sind hier bereits vorhanden.

Problem der Texterfassung:
Vor der Verarbeitung muß der Text so geschrieben sein, daß er vom Computer gelesen werden kann. Es ist zwar inzwischen auch möglich, Originale automatisch zu lesen; das ist aber noch teurer, als die Texte neu schreiben zu lassen. Automatische Spracherkennung (von Tonbandaufnahmen) ist bisher nur für Ziffern möglich. Wenn jedoch ein Text bereits gesetzt ist, ist unter Umständen - je nach Satzverfahren - auf Lochstreifen bereits eine maschinenlesbare Fassung vorhanden und kann direkt vom Programm verarbeitet werden (Kosten für 1000 Zeilen Konkordanz mit den Programmen des ZDV dann: DM 2.50). In Tübingen werden die zu verarbeitenden Texte auf üblichen IBM-Schreibmaschinen mit OCR-A-Kugelkopf geschrieben und können dann automatisch gelesen werden.

Die Programme verwenden als Sortierkriterium die einzelne Wortform; eine vorausgehende morphologische Analyse würde es ermöglichen, die verschiedenen Wortformen eines Wortes zusammenzusortieren. Dazu wäre aber für jede Sprache ein eigenes Analyseprogramm nötig (COCOA ist unabhängig von der Sprache); solche Analyseprogramme existieren bereits für Deutsch, Englisch, Latein.

Eine semantische Analyse, um z.B. verwandte Begriffe zusammenzuordnen, ist per Programm nur begrenzt und mit großem Aufwand möglich, ebenso die Trennung von Homonymen. Hier ist eine manuelle Prä-Edition im allgemeinen günstiger.

Das Programm COCOA ist langsamer als die einzelnen von den Rechenzentren speziell für ihre Maschine geschriebenen Programme, dafür aber kompatibel, d.h. auf verschiedene Maschinen übertragbar.

(Die Kurzfassung des Referates wurde von der Referentin zur Verfügung gestellt.)

Wilhelm Ott

[Bericht über die geplante] Gründung einer Clearingstelle zu überregionalem Informationsaustausch und Koordination bei EDV-Einsatz in den Geisteswissenschaften

Die LDV-Fittings möchten eine Clearingstelle "zur Kooperation und Koordination von öffentlich geförderten Projekten der linguistischen Datenverarbeitung" (LDV-Fittings-Rundschreiben vom 3.1.1975) schaffen. Dazu sollten sich die in der LDV tätigen Institute, Organisationen und Unternehmen zu einem e.V. zusammenschließen. In einer "Definitiven Absichtserklärung" der LDV-Fittings wurden die Aufgaben dieses e.V. aufgezählt. LDV-Fittings forderte alle Interessenten auf, Wünsche, Anregungen etc. für eine Satzung des e.V. bis zum 1.3.1975 einzusenden.

Diskussion

Es wurde vor allem kritisiert, daß LDV-Fittings den Anspruch erhebt, alle LDV-Projekte zu vertreten. Es wurde beschlossen, an LDV-Fittings eine Liste aller Tübinger Projekte zu schicken. Außerdem gibt es schon einige Wege der Koordination auf dem Gebiet "Geisteswissenschaften + EDV" (CHum, ALLC, IDS etc.). Die Erfahrung zeigt, daß nicht- oder halbinstitutionalisierte "Clearingstellen" recht gut funktionieren.

Es wurde beschlossen, an alle Tübinger Projektnehmer die "Definitive Absichtserklärung" zu schicken mit der Bitte um Stellungnahme und der Einladung zu einer Zusammenkunft am 26.2.1975, auf der ein gemeinsames Schreiben an LDV-Fittings abgefaßt werden soll.

Zur Übersicht über die bisherigen Kolloquien

tustep@zdv.uni-tuebingen.de - Stand: 19. Februar 2002