
Aus dem Protokoll des 6. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 15. Februar 1975
Eine Konkordanz besteht aus einer alphabetisch sortierten Liste aller Wortformen
eines gegebenen Textes, wobei für jede Wortform eine Referenzangabe
und eine Kontextzeile zusätzlich ausgedruckt werden. Es gibt zwei Arten
von Konkordanzen, je nachdem, wo das Schlüsselwort auf dem Blattschreiber
positioniert ist: Beim KWIC (keyword in context) Index wird das Schlüsselwort
zentriert ausgedruckt; beim KWOC (keyword out of context) Index
fängt jede Zeile auf der ersten linken Spalte des Blattes an. Die Kontextzeilen
werden meistens der Reihenfolge nach ausgedruckt, wie sie im Text
vorkommen; d.h. sie werden der Referenz nach sortiert.
Programme zur Erstellung solcher "Standard"-Konkordanzen gibt es in den
meisten Rechenzentren. Diese Programme sind hauptsächlich nur für die
eigene Anlage geschrieben und bieten dem Benutzer nur wenig Möglichkeit
zur Variation. Für gewisse Anwendungsbereiche, wie die Textkritik,
sind andere Kriterien zur Darstellung und Auswahl der Schlüsselwörter
erforderlich. Das Standard-Konkordanz-Paket bietet meistens auch keine
Möglichkeit zur flexiblen Kodierung in einem nicht-römischen Alphabet.
Am Atlas Computer Laboratory in Chilton, Oxford wurde ein äußerst flexibles
und Rechner-unabhängiges Programmpaket zur Erstellung von Konkordanzen
und Indizes geschrieben. Dieses Programm heißt COCOA (Concordance and
Wordcount Generator on Atlas) und steht den Universitäten und Forschungsinstituten
kostenlos zur Verfügung.
Die folgende Liste vermittelt Informationen mit Adressen von Kontaktpersonen,
die über Konkordanzpakete und über vorhandene Texte in maschinell
verarbeitbarer Form Auskunft geben können:
Allgemeine Literatur zur automatischen Textanalyse:
Dokumentation zu Programm-Paketen und Corpora:
Problem der Texterfassung:
Die Programme verwenden als Sortierkriterium die einzelne Wortform; eine
vorausgehende morphologische Analyse würde es ermöglichen, die verschiedenen
Wortformen eines Wortes zusammenzusortieren. Dazu wäre aber für jede
Sprache ein eigenes Analyseprogramm nötig (COCOA ist unabhängig von der
Sprache); solche Analyseprogramme existieren bereits für Deutsch, Englisch,
Latein.
Eine semantische Analyse, um z.B. verwandte Begriffe zusammenzuordnen, ist
per Programm nur begrenzt und mit großem Aufwand möglich, ebenso die Trennung
von Homonymen. Hier ist eine manuelle Prä-Edition im allgemeinen günstiger.
Das Programm COCOA ist langsamer als die einzelnen von den Rechenzentren
speziell für ihre Maschine geschriebenen Programme, dafür aber kompatibel,
d.h. auf verschiedene Maschinen übertragbar.
(Die Kurzfassung des Referates wurde von der Referentin zur
Verfügung gestellt.)
Es wurde beschlossen, an alle Tübinger Projektnehmer die "Definitive Absichtserklärung"
zu schicken mit der Bitte um Stellungnahme und der Einladung
zu einer Zusammenkunft am 26.2.1975, auf der ein
gemeinsames Schreiben an LDV-Fittings abgefaßt werden soll.
Godelieve M.L. Berry-Rogghe (IDS Mannheim)
Untersuchungen von Texten mit Hilfe automatisch erstellter
Konkordanzen und ähnlicher Hilfsmittel
Der Kontext ist der wichtigste Teil einer Konkordanz.
Es muß gerade soviel Kontext ausgegeben werden, daß damit die
Bedeutung des Schlüsselwortes im Satz erschlossen werden kann, ohne daß
zum Originaltext zurückgegriffen werden muß. Die Kontextmenge in einer
Standard-Konkordanz besteht meistens entweder aus der Zeile, die das
Schlüsselwort enthält, oder aus einer festen Anzahl von Zeichen vor und
nach dem Schlüsselwort. Das erste Verfahren ist wohl bei einer Verskonkordanz
vorzuziehen, reicht aber bei Prosa nicht aus, denn in einigen Fällen
enthält die Zeile nur das Schlüsselwort. Das zweite Verfahren ist zwar
für Prosa vorteilhafter, aber die Kontextmenge stellt trotzdem noch keine
syntaktische oder semantische Einheit dar. Ein drittes Verfahren besteht
darin, den ganzen syntaktischen Satz als Kontextmenge auszugeben.
COCOA gibt dem Benutzer die Möglichkeit, aus diesen drei Lösungen die zu
wählen, die seinem spezifischen Bedarf am besten entspricht.
Die Kontexte, in denen das Schlüsselwort
vorkommt, werden in den meisten Fällen der Referenz nach sortiert.
Diese Reihenfolge ist meistens uninteressant, es sei denn, daß die Chronologie
eine Bedeutung hat. COCOA bietet dazu die Möglichkeit einer alphabetischen
Sortierung entweder des rechten oder des linken Kontextes des
Schlüsselwortes. Auf diese Weise werden idiomatische Verwendungen und
häufig zusammen auftretende Wortpaare, wie "kalte Schulter" oder "ohne
Rücksicht", aufgezeigt.
Ein flexibles
Programmpaket muß dem Benutzer eine Vielfalt von Möglichkeiten zur Auswahl
und zur Ausschließung gewisser Wortformen bieten. Mit COCOA kann
man die Konkordanz auf folgende Weise einschränken:
In gewissen Fällen ist der Forscher
nicht nur an einem einzelnen Schlüsselwort interessiert, sondern nur, wenn
dieses Schlüsselwort in Verbindung mit einem anderen Wort verwendet wird.
Der Benutzer soll dazu angeben, wie groß die Entfernung zwischen beiden
Wörtern sein darf.
Der Benutzer hat die Möglichkeit,
aus allen zur Verfügung stehenden Zeichen zu definieren, welche
zu seinem Alphabet gehören, welche Sonderzeichen und welche Worttrennungszeichen
sind. Dazu darf ein einziges Graphem durch eine Reihenfolge von
mehreren Zeichen dargestellt werden. Die alphabetische Sequenz ist auch
frei zu wählen. Folgendes Beispiel ist ein Vorschlag für eine Kodierung
des Kyrillischen Alphabets:
A,B,V,G,D,YE,ZH,Z,I,Y,K,L,M,N,O,P,R,S,T,U,F,KH,TS,CH,SH,Q,*,IJ,',E,YU,YA.
In diesem Zusammenhang ist auch die Definition von gewissen diakritischen
Zeichen als Sonderzeichen einer speziellen Kategorie zu erwähnen. In den
mir bekannten Programmpaketen werden diakritische Zeichen als Elemente
des Alphabets betrachtet. Sie werden entweder am Ende oder am Anfang des
Alphabets deklariert; oder das Zeichen, das mit einem diakritischen Zeichen
versehen ist, wird anders kodiert als das gleiche Zeichen ohne das diakritische
Zeichen. In allen Fällen ist das Ergebnis der Sortierung, daß Wortformen,
die sich nur durch das diakritische Zeichen unterscheiden, wie im
Französischen des, d�s, d�s und im Griechischen "eta", "eta mit spiritus asper", "eta mit iota subscriptum" und "eta mit Akut" in der Konkordanz
getrennt erscheinen. COCOA führt eine primäre Sortierung aus, wobei die
diakritischen Zeichen entfernt werden; aber bei einer zweiten Sortierung
werden sie mit berücksichtigt, sodaß die gewünschte Reihenfolge erhalten wird.
Der häufigste Anwendungsbereich für Konkordanzen
ist wohl die Literatur-Forschung. Hierbei kann es sich um stilistische
Studien handeln, wie z.B. von Naturbeschreibungen bei Shakespeare, oder
um eine rein inhaltliche Erschließung, wie ein Studium über die Bedeutung
des Begriffes "Synthesis" bei Kant. Außer den schon erwähnten Merkmalen
von COCOA, die eine solche Forschung erleichtern, nämlich freie Kodierung
und Flexibilität in der Auswahl von Schlüsselwörtern, gibt es auch die
Möglichkeit, auf bestimmte Textteile zuzugreifen, insofern diese mit Referenzen
versehen sind. Bei einer Forschung über das Theaterstück "Julius
Cäsar" wäre es z.B. möglich, nur die Aussagen des Brutus auszuwählen.
Ein gewisses morphologisches
oder syntaktisches Phänomen kann mit Hilfe einer Konkordanz erforscht werden,
sofern diese Phänomene an rein graphematischen Merkmalen erkennbar
sind, wie die Adverb-Endung -ly im Englischen. Weitere Möglichkeiten mit
Hilfe einer Vor-Kodierung des Textes sind natürlich nicht ausgeschlossen.
Es ist die Aufgabe der Textkritik, aus verschiedenen historisch überlieferten
Texten eines Werkes die originale Version zu rekonstruieren. Da es
sich hier um ältere Manuskripte handelt, muß der Forscher öfters selber
einige Wortformen substituieren; andrerseits sind Wörter oft mit Korrekturen
versehen. Es muß die Möglichkeit geben, diese Rekonstruktionen, Substituierungen
und Korrekturen von originalen Formen zu unterscheiden, aber
trotzdem die Wortformen, die das gleiche Wort darstellen, zusammen zu sortieren.
In COCOA kann man auch gewisse Sonderzeichen definieren, die bei
der Sortierung des Schlüsselwortes nicht mit berücksichtigt werden, aber
doch im Kontext ausgedruckt werden; z.B. [E]NTU darf eine rekonstruierte
Form vom althochdeutschen ENTU darstellen, wo das "e" nicht mehr lesbar
war. Die Konkordanz wird aber beide Formen unter das Schlüsselwort entu
ausgeben.
Konkordanzen von verschiedenen Textarten können
einen großen Beitrag zum Fremdsprachenunterricht liefern. Sie zeigen nicht
nur, welche die häufigsten Wörter in einer gewissen stilistischen Gattung
sind, sie geben dazu Information über ihre Verwendung. In diesem Zusammenhang
möchte ich das Erstellen eines Deutsch-Kurses für Chemiker an der
Universität Nottingham erwähnen, der auf einer mit COCOA erzeugten Konkordanz
von den wichtigsten chemischen Fachzeitschriften aufbaute.
Chilton, Didcot: Atlas Computer Laboratory 1973
Mrs. Joan Smith, 6, Sevenoaks Avenue, Heaton Moor,
Stockport, Cheshire SK4 4AW, England
SEBD Publications Inc., 380, Saw Mill River Rd, Elmsford, New York 10523, USA
Miss Rosemary Leonard, Department of English, The
University, Lancaster, England
Herr Dr. I. Zifonun, Rechenzentrum, Institut für
deutsche Sprache (IdS), Mannheim
Diskussionsbeiträge
Das Programm COCOA wird wahrscheinlich am ZDV Tübingen auch eingesetzt
werden. Einfachere Programme zur Indexherstellung sind hier bereits vorhanden.
Vor der Verarbeitung muß der Text so geschrieben
sein, daß er vom Computer gelesen werden kann. Es ist zwar inzwischen
auch möglich, Originale automatisch zu lesen; das ist aber noch teurer,
als die Texte neu schreiben zu lassen. Automatische Spracherkennung
(von Tonbandaufnahmen) ist bisher nur für Ziffern möglich. Wenn jedoch
ein Text bereits gesetzt ist, ist unter Umständen - je nach Satzverfahren - auf Lochstreifen
bereits eine maschinenlesbare Fassung vorhanden und kann direkt
vom Programm verarbeitet werden (Kosten für 1000 Zeilen Konkordanz mit
den Programmen des ZDV dann: DM 2.50). In Tübingen werden die zu verarbeitenden
Texte auf üblichen IBM-Schreibmaschinen mit OCR-A-Kugelkopf geschrieben
und können dann automatisch gelesen werden.
Wilhelm Ott
[Bericht über die geplante] Gründung einer Clearingstelle zu überregionalem Informationsaustausch und
Koordination bei EDV-Einsatz in den Geisteswissenschaften
Die LDV-Fittings möchten eine Clearingstelle
"zur Kooperation und Koordination von öffentlich geförderten Projekten
der linguistischen Datenverarbeitung" (LDV-Fittings-Rundschreiben
vom 3.1.1975) schaffen. Dazu sollten sich die in der LDV tätigen Institute,
Organisationen und Unternehmen zu einem e.V. zusammenschließen. In einer
"Definitiven Absichtserklärung" der LDV-Fittings wurden die Aufgaben dieses
e.V. aufgezählt. LDV-Fittings forderte alle Interessenten auf, Wünsche,
Anregungen etc. für eine Satzung des e.V. bis zum 1.3.1975 einzusenden.
Diskussion
Es wurde vor allem kritisiert, daß LDV-Fittings den Anspruch
erhebt, alle LDV-Projekte zu vertreten. Es wurde beschlossen, an LDV-Fittings
eine Liste aller Tübinger Projekte zu schicken. Außerdem gibt es
schon einige Wege der Koordination auf dem Gebiet "Geisteswissenschaften
+ EDV" (CHum, ALLC, IDS etc.). Die Erfahrung zeigt, daß nicht- oder halbinstitutionalisierte
"Clearingstellen" recht gut funktionieren.
Zur
Übersicht über die bisherigen Kolloquien
tustep@zdv.uni-tuebingen.de - Stand: 19. Februar 2002