TUSTEP

Protokoll des 22. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 14. Februar 1981

Allgemeine Informationen

Für den Standarddrucker der UNIVAC 1100/80 ist die neue Druckkette, eine Sonderanfertigung für das ZDV Tübingen, eingetroffen. Die Druckkette enthält außer dem Alphabet in Groß- und Kleinbuchstaben die Umlaute, das ß, Akzente und weitere diakritische Zeichen.

Literaturhinweis:
Winfried Lenders: Linguistische Datenverarbeitung - Stand der Forschung.- Deutsche Sprache 1980, Heft 3, S. 213-264.

Arno Ruoff (Tübinger Arbeitsstelle "Sprache in Südwestdeutschland", Wolfenhausen)

Ein Häufigkeitswörterbuch gesprochener Sprache aufgrund von Tonbandaufnahmen südwestdeutscher Mundarten

Eberhard Zwirner hatte 1955 von der Deutschen Forschungsgemeinschaft die Mittel erhalten, zur Erweiterung des von ihm begründeten Deutschen Spracharchivs die in Deutschland gesprochene Alltagssprache auf Tonband aufnehmen zu lassen. Die Aufnahmen sollten der Erforschung "konstitutiver Faktoren" des Sprechens dienen. Die Erhebung sollte von Germanisten oder Dialektologen zuständiger Landesuniversitäten vorgenommen werden. In einem Planquadratnetz von ca. 16 km Seitenlänge war in jedem Quadrat ein Aufnahmeort auszuwählen, darin sollten drei Einheimische und drei Heimatvertriebene jeweils unterschiedlichen Geschlechts, Alters und Berufs ca. 10 Minuten lang auf Tonband sprechen. Verlangt waren unvorbereitete, freie Gespräche in der Normalsprache der Gewährsleute.

In Württemberg haben 1955 Hermann Bausinger und ich aufgenommen, anschließend wurde in Tübingen begonnen, diese Aufnahmen zu transkribieren. Aus der Zusammenarbeit zwischen dem Tübinger Ludwig-Uhland-Institut und dem Deutschen Spracharchiv entwickelte sich 1959 die Tübinger Außenstelle des Deutschen Spracharchivs, seit 1969 Tübinger Arbeitsstelle "Sprache in Südwestdeutschland" (seit 1973 angeschlossen ans Ludwig-Uhland-Institut der Universität Tübingen). Eberhard Zwirner ermöglichte mir, darin seinen phonometrischen Untersuchungen einen eigenen Forschungsplan zur Seite zu stellen:

sollten diejenigen Seiten der gesprochenen Sprache untersucht werden, die sich früheren Methoden dialektologischer Materialerhebung entziehen und (nur) mittels Tonbandaufnahmen zu erheben sind, so besonders die Bereiche von Syntax und Stilistik;
sollte die geographische, soziale und situative Bedingtheit des Sprechens systematisch untersucht werden, indem diese redebestimmenden Faktoren operationalisiert und den Texten zugeordnet wurden. Es mußten Methoden gefunden werden, die das jeweilige Gewicht des Einflusses außersprachlicher Variablen auf einzelne Spracherscheinungen ermitteln ließen.

Zur Verwirklichung dieses Planes wurde das Aufnahmegebiet der Tübinger Arbeitsstelle vergrößert und das Aufnahmenetz verdichtet. Wir verfügen heute über 1500 Aufnahmen aus 350 Orten von Baden-Württemberg, Bayrisch-Schwaben, Vorarlberg und Liechtenstein. Die 1200 Einheimischen-Aufnahmen sind inzwischen transkribiert, diese Texte bilden die Grundlage diverser Auswertungs-Arbeiten. So wurden z.B. alle im Korpus vorkommenden Belege der einzelnen Wortarten exzerpiert und mit zahlreichen sprachwissenschaftlichen Zuordnungen versehen. Diese Exzerptbogen sind die Grundlage für wissenschaftliche Bearbeitungen, besonders für die Erstellung von Spezialmonographien (Satzkonjunktionen, Lehnwortgebrauch, Konjunktiv, Vergangenheitstempora ...), die in der Reihe "Idiomatica" im Max-Niemeyer-Verlag Tübingen veröffentlicht werden.

Zur statistischen Behandlung des Materials wurden alle Texte in "Wortblöcke" von je 200 aufeinanderfolgenden von der Gewährsperson gesprochenen Wörtern eingeteilt. Diesen Textteilen sind Siglen der Merkmalsgruppen redebestimmender Faktoren (Sprachlandschaft; Geschlecht, Beruf, Sozialschicht und Alter des Sprechers; Gesprächsart und Gesprächsinhalt) zugeordnet.

Die Arbeitshypothese, alle sprachnotwendigen Erscheinungen müßten, wenn diese Kategorisierung richtig und genügend ist, in Gruppierungen gleich definierter Blöcke normalverteilt vorkommen, bestätigte sich an allen Untersuchungen.

Alle Einzelheiten von Forschungsplan und -methoden sind ausführlich beschrieben in

Arno Ruoff: Grundlagen und Methoden der Untersuchung gesprochener Sprache. Einführung in die Reihe "Idiomatica" mit einem Katalog der ausgewerteten Tonbandaufnahmen.- Tübingen 1973 (= Idiomatica 1).

In den folgenden Bänden der Reihe "Idiomatica" werden einzelne Spracherscheinungen nach dieser Methode untersucht. Dabei stellte sich oftmals (wie früher schon häufig in sprachwissenschaftlichen Arbeiten) immer wieder die Frage nach der Vorkommenshäufigkeit bestimmter Spracherscheinungen. Die Behauptungen, der synthetische Konjunktiv komme bei seltenen Verben nicht mehr vor oder das Präteritum sei im Oberdeutschen nur bei den häufigsten Verben noch oder wieder üblich, sind ohne eine verläßliche Feststellung, welche denn nun die häufigsten oder seltensten Verben seien, schlechterdings nicht überprüfbar. Für zahlreiche andere sprachwissenschaftliche Fragen, z.B. diejenige des Sprachwandels, spielt die Frequenz der Erscheinungen ebenso eine wesentliche Rolle. Nicht nur um für institutseigene Untersuchungen eine zuverlässige Grundlage zu haben, sondern vor allem auch, um externen Arbeiten eine Hilfe bieten zu können, entschlossen wir uns, aufgrund unseres vorliegenden Materials ein Häufigkeitswörterbuch gesprochener Sprache herzustellen, was uns durch ein DFG-Projekt ermöglicht wurde. Wir wählten, um den Arbeitsumfang zu beschränken, ein für diesen Zweck ausreichendes Unterkorpus von 500.000 Wörtern aus. Die Exzerptbogen der einzelnen Wortarten bildeten die Grundlage, die allerdings noch einiger Bearbeitung bedurfte, da viele Belege in mehr als einer Arbeit zu exzerpieren gewesen waren (substantivierte Infinitive sowohl bei Substantiv wie bei Verb usw.), ins Häufigkeitswörterbuch aber selbstverständlich nur einmal aufgenommen werden durften, und da den homonymen Belegen (in beschränktem Umfang und knappster Form) unterscheidende Bedeutungsangaben beizufügen waren. Alle Belege wurden auf ihre Grundform (Nominativ Singular; Infinitiv) reduziert. Diese Arbeiten wurden von Bernhard Gersbach und anderen Mitarbeitern der Tübinger Arbeitsstelle vorgenommen und die Belege in EDV-lesbarer Schrift (OCR-Kopf) aufgelistet. Den Belegen wurden generalisierte Blockzuordnungen der außersprachlichen Variablen beigegeben, so daß später jederzeit die Verteilung bestimmter Wörter, Wortgruppen oder Wortgruppierungen nach Sprecher- oder Gesprächsgruppen untersucht werden kann. Die Sortier- und Rechenarbeiten im Rechenzentrum nahm Harald Fuchs für uns vor. Das Häufigkeitswörterbuch enthält nach Wortarten gesondert je eine alphabetische, eine rückläufig-alphabetische und eine Häufigkeitsliste, alle mit Angaben der absoluten und prozentualen Häufigkeit je Wortart. Bei den Verben wurden Hilfs- und Modalverben von gleichlautenden Vollverben getrennt, in einer vierten Liste wurden alle Komposita ihrer Präfixe entkleidet den zugrunde liegenden Simplicia zugerechnet (heben + anheben + aufheben . . . = x).

Das Häufigkeitswörterbuch wird 1981 in der Reihe "Idiomatica" erscheinen*; seine Listen, besonders die rückläufigen, bilden seit langem schon die Grundlage eines weiteren DFG-Projekts der Tübinger Arbeitsstelle, welches die Wortbildung in gesprochener Sprache untersucht und durch die Vorarbeit des Häufigkeitswörterbuchs in der Lage ist, Anzahlen von Wortbildungsmustern wie von deren Belegung durch Lemmata und Belege genau anzugeben.

* Arno Ruoff: Häufigkeitswörterbuch gesprochener Sprache. Gesondert nach Wortarten, alphabetisch, rückläufig alphabetisch und nach Häufigkeit geordnet.- Tübingen: Niemeyer 1981 (= Idiomatica 8)

Diskussion

Bedenken, ob die Häufigkeitsverteilung nicht korpusbedingt sei, trat Arno Ruoff mit dem Hinweis entgegen, daß ein Vergleich mit anderen Häufigkeitsuntersuchungen eine bemerkenswerte Übereinstimmung ergeben habe. Mit der gebotenen Vorsicht können die ermittelten Häufigkeiten als repräsentativ angesehen werden.

Eine besondere Schwierigkeit für die EDV-Anwendung liegt in den vielen lautlichen Besonderheiten des Dialektes. Als der Einsatz von EDV bei diesem Projekt zur Sprache kam, war etwa die Hälfte des Materials für die Häufigkeitsuntersuchung bereits exzerpiert, eine Umstellung z.B. auf maschinelle Umsetzung der Lautformen in Normalformen nicht mehr möglich. Die Anwendung der EDV ist deshalb auf die Sortierung des manuell exzerpierten Materials und auf statistische Berechnungen (z.B. Häufigkeitsverteilungen, Signifikanztests) beschränkt.

Konrad Vollmann (Deutsches Seminar)

Edition und grammatikalische Untersuchung des mittellateinischen Versromans "Ruodlieb"

Der "Ruodlieb", ein lateinisches Versepos des 11. Jahrhunderts, das die Bewährung und glückhafte Erhöhung eines jungen Adeligen schildert, spielt in der mittelalterlichen Literaturgeschichte deswegen eine besondere Rolle, weil hier zum ersten Mal, so weit wir wissen, eine frei erfundene Geschichte erzählt wird und weil die Latinität des Autors vom Sprachgebrauch der Zeitgenossen auffällig abweicht. Aus der Bedeutung des "Ruodlieb" erklären sich die schon nahezu 150 Jahre währenden Bemühungen der Forscher um das Verständnis des Werkes, das vor allem darunter leidet, daß das Gedicht nur fragmentarisch überliefert ist und fast ein Drittel der 2307 erhaltenen Verse aufgrund mechanischer Verstümmelung von Buchstaben- bzw. Wortverlusten betroffen ist. Eine große Anzahl der hierher gehörenden Verse konnte zwar seit langem als geheilt gelten, bei ungefähr 200 Versen jedoch waren noch keine befriedigenden Lösungen gefunden worden. Auch auf dem anderen Gebiet, dem der "Ruodlieb"-Grammatik, war manches vorgeklärt, anderes jedoch falsch aufgefaßt worden, und vor allem mangelte es an einer zuverlässigen Erfassung des gesamten Sprachmaterials.

Die Aufgabe einer neuen Edition bestand also darin,

die Entzifferung schwer lesbarer Textstellen durch den paläographischen Vergleich mit identischen Buchstaben bzw. Buchstabenkombinationen abzusichern, wobei der Abkürzungspraxis des Schreibers besondere Bedeutung zukommen mußte;
die Ergänzung fehlender Wörter im Rückgriff auf den Gesamtwortschatz des Autors zu leisten;
den Sprachgebrauch des Verfassers in Bezug auf Wortbildung, Wortformen und Satzlehre festzustellen.

Für alle drei Aufgaben war eine vollständige Konkordanz der vorkommenden Wortformen unverzichtbares Arbeitsinstrument. Eine solche Konkordanz hätte zwar auch im Verzettelungsverfahren hergestellt werden können - wie der von Andreas Epe 1980 veröffentlichte "Index verborum Ruodliebianus" (= Europäische Hochschulschriften. Reihe 1: Deutsche Sprache und Literatur 362); die Speicherung des Textes auf Datenträger und die Computerverarbeitung brachte jedoch demgegenüber entschiedene Vorteile.

Sortierung des Wortmaterials von rückwärts (Ausdruck einer rückläufigen Konkordanz).
Die Präsentation der rückläufigen Wortformen kam vor allem der Grammatik zugute. Mit ihrer Hilfe ließen sich Häufigkeit und Verwendungsweise der Enklitika -que, -ve, -ne u.ä., abweichende Flexionsformen (z.B. Kontraktionen vom Typ laudaram für laudaveram), Substantiva der 3. und 4. Deklination, die Verwendung von Gerund statt des Partizips Praes. (Typ laudando für laudans) und anderes mehr bestimmen. Darüber hinaus gab der rückläufige Index bisweilen (vor allem bei Adverbien) Anregung für die Ergänzung eines abgeschnittenen Wortes.
Aussonderung von Wortbildungselementen.
Mittellateinische Neologismen lassen sich großteils fest umrissenen Kategorien (z.B. bestimmten Suffixbildungen) zuordnen. Durch das maschinelle Abfragen von Wortbildungselementen wie -tor-, -ura-, -men/min-, -ari- u.a. ließen sich die im Text vorkommenden Gruppen ausgrenzen.
Präsentation größerer syntaktischer Einheiten in Verbindung mit dem Stichwort.
Die im ZDV Tübingen hergestellte "Ruodlieb"-Konkordanz bot das Stichwort mit reichem (vorausgehendem und nachfolgendem) Kontext, insgesamt pro Konkordanzzeile fast drei Hexameter. Die mit Fragewort gebildeten Fragesätze, die Relativsätze und Konjunktionalsätze - ein nicht unerheblicher Teil der Syntax also - konnten auf diese Weise in der Konkordanz selbst analysiert und kategorisiert werden. Ein Aufsuchen und Bestimmen der zahlreichen Stellen mit quod, quo, ut, cum, dum u.ä. anhand eines bloßen Index verborum oder einer der üblichen, nur den jeweiligen Hexameter zitierenden Konkordanzen, wäre außerordentlich mühevoll gewesen, ganz abgesehen von den dann fast unvermeidbaren Fehlern.
Korrigierbarkeit des gewonnenen Textes.
Die Lesung schwer entzifferbarer Stellen und die Ergänzung verlorener Versteile gelingt oft nicht auf Anhieb; frühere Ansätze erweisen sich mit fortschreitender Vertiefung in den Text häufig als revisionsbedürftig. Der Rechner ermöglichte in solchen Fällen eine rasche Korrektur, die automatisch auch in den Wortformenindex einging, während bei einem "handgestrickten" Index (bzw. einer "handgestrickten" Konkordanz) sämtliche späteren Besserungen einzeln - und ggf. an mehreren Stellen - hätten nachgetragen werden müssen.
Verbindung von Text und Apparaten.
Der Edition waren zwei Apparate beizugeben, ein paläographischer, der über den Zustand der Handschrift (Autorkorrekturen, Rasuren, Glossen u.ä.) Auskunft erteilt, und ein Konjekturenapparat, der die bisher von der Forschung vorgeschlagenen Ergänzungen enthält. Mit Hilfe eines Programmes von Paul Sappler wurde die Anordnung von Text- und Apparatzeilen so ausgerechnet, daß Seitenspiegel identischer Größe entstanden, die über den Typenraddrucker ausgedruckt werden konnten. Dies hatte den Vorteil, daß später sich als notwendig erweisende Eingriffe in die Apparatgestaltung problemlos durchzuführen waren, da das Programm die richtige Relation von Text- und Apparatzeilen wieder herstellte.

Diskussion

In der über den Typenraddrucker ausgedruckten Edition, die z.B. als Offsetvorlage verwendet werden kann, sind die verlorenen und nicht ergänzten Verspartien durch Punkte (...) bezeichnet. Die glatte Schnittkante des mechanischen Textverlustes erscheint hier nicht als senkrechter Rand, sondern quasi im Flattersatz. Diskutiert wurde die Möglichkeit, bei einer diplomatischen Wiedergabe der Handschrift in der Edition durch Satzherstellung im Lichtsatzverfahren die Schnittkante nachzubilden, um dem Benutzer einen adäquaten Eindruck über die Art und den Umfang des Textverlustes zu vermitteln. Ein weiterer Schritt zu diesem Ziel wäre es, auch die Kürzel der Handschrift in ihrer originalen Form in der Edition nachzubilden.

(Die Kurzfassungen der Referate wurden von den Referenten zur Verf�gung gestellt.)

Zur Übersicht über die bisherigen Kolloquien

tustep@zdv.uni-tuebingen.de - Stand: 25. Juni 2002