TUSTEP

Protokoll des 7. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 21. Juni 1975

Wilhelm Ott

Bericht über die Gründungsversammlung der LDV-Fittings

Auf der Gründungsversammlung der LDV-Fittings (vgl. das Protokoll des 6. Kolloquiums vom 15.2.1975) am Montag, 3. Juni 1975 in München wurde der Satzungsentwurf diskutiert. Veränderungen wurden besonders zur besseren Abgrenzung von übergeordneten Organisationen, vor allem der zu gründenden "Gesellschaft für Information und Dokumentation" (GID) (vgl. Nachrichten für Dokumentation 26, 1975, (Heft 2) S. 41-47) angebracht. Eine Arbeitsgruppe wurde mit den Vorarbeiten für die Einrichtung der geplanten Clearingstelle beauftragt. Erwerb der Mitgliedschaft auf Antrag (Mitgliedsbeitrag für kommerzielle Einrichtungen 250,- DM, für wissenschaftliche Institute 100,- DM, für natürliche Personen 50,- DM, für Studenten 10,- DM).

Adelheid Schwab

Programme zur Untersuchung von Graphemfolgen in Wörtern

Im ZDV stehen hierzu zwei Programme zur Verfügung:

Programm KLIC (key letter in context):
Es druckt jedes Wort unter allen Graphemen aus, die in ihm enthalten sind.
Dabei sind zwei Arten möglich, in welcher Reihenfolge die Grapheme angeordnet werden:
1. Der Schlüsselbuchstabe ist das letzte Zeichen des Graphems, es wird nach dem Zeichen vor diesem Buchstaben sortiert.
2. Der Schlüsselbuchstabe ist das erste Zeichen des Graphems, es wird nach den Zeichen hinter diesem Buchstaben sortiert.
Programm GRAPH:
Hier muß der Benutzer angeben, welche Grapheme/Graphemfolgen gesucht werden und in welcher Reihenfolge sie ausgedruckt werden sollen.
Außerdem kann er bis zu 20 Buchstabengruppen definieren, die dann im Graphem/Graphemfolge durch ein bestimmtes Symbol repräsentiert werden. Eine solche Gruppe könnte z.B. sein: A,E,I,O,U; A ∧ W, E ∧ Y; sie soll durch "(" repräsentiert werden. Möchte ein Benutzer alle Wörter ausgedruckt haben mit der Graphemkombination: "FF" nach einem Element dieser Gruppe, müßte er dann notieren: "(FF".
Der Benutzer kann zudem angeben, wenn zu einem Graphem/einer Graphemfolge nur die Wörter ausgedruckt werden sollen, in denen dieses Graphem/diese Graphemfolge am Wortanfang bzw. im Wortinnern bzw. am Wortende steht. Gibt er nichts diesbezügliches an, werden alle Wörter ausgedruckt, die das Graphem/die Graphemfolge in irgendeiner dieser drei Positionen enthalten.

Diskussion

Zu den Programmen wird eine Beschreibung erstellt, die auf Anforderung am ZDV erhältlich ist. Darin wird der Ablauf des Programms beschrieben und eine Anleitung zur Benutzung gegeben.

Das Programm GRAPH erlaubt nicht die Kombination von zwei Symbolen. Eine Erweiterung dafür ist jedoch denkbar.

Ist eine kürzere Graphemfolge in einer längeren, ebenfalls gesuchten Graphemfolge enthalten, werden die betreffenden Wörter nur unter der kürzeren Graphemfolge aufgeführt; von der längeren wird dann auf die kürzere verwiesen. Eine Ausgabe unter der kürzeren und unter der längeren Graphemfolge ist ebenfalls möglich.

Elisabeth Corsetti (Romanisches Seminar) / Adelheid Schwab

Unterschiede zwischen der zeitgenössischen portugiesischen Sprache Brasiliens und der Portugals anhand der Stellung der Personalpronomina

Es werden die Personalpronomina in ihren folgenden Funktionen behandelt:

als direktes und indirektes Objekt
als unbestimmte und Reflexivpronomina
als funktionslose Verstärkungspartikel.

Dieses Thema wurde gewählt, weil sich an ihm die Differenzen beider Nationalsprachen besonders klar zeigen lassen.

Das Material umfaßt 8350 Sätze aus den Gattungen: Romane, Dramen, Erzählungen, Zeitungen und Zeitschriften, d.h. es werden nur Texte der literarischen Sprache herangezogen.

Es wurden nur Sätze abgeschrieben, die ein oder mehrere Personalpronomina enthalten, deren Stellung nicht bereits durch ihren Kontext determiniert ist, d.h. solche, die alternative Positionen im Satzgefüge einnehmen können. Durch Analyse der nicht-kontextbedingten Stellungen soll versucht werden, tendenzielle Regularitäten zu bestimmen. Dies wird in zweifacher Weise geschehen:

durch Berechnung der prozentualen Anteile der verschiedenen Anwendungsmöglichkeite am Gesamtsample.
durch Betrachtung der Einzelfälle, um die Verwendungsarten in einzelnen Texten und bei einzelnen Autoren zu beschreiben, um dadurch unter Umständen Entwicklungsphasen der syntaktischen Besonderheiten feststellen zu können.

Bei dem Projekt steht das Bemühen im Vordergrund, ein Modell zu entwickeln, das vier Absichten verfolgt:

eine didaktische:
Es gilt, die Eigenarten der beiden Spracharchitekturen herauszuarbeiten an Hand von zwei getrennten Sprachbeschreibungen.
eine normative:
Es muß untersucht werden, wie relevant die einzelnen Unterschiede sind, und zwar anhand der Gegenüberstellung der traditionellen Grammatik und der Ergebnisse dieser Arbeit.
eine methodische:
Es sollen die Größen der vorgenommenen Operationalisierungen bestimmt werden, die einer optimalen Verarbeitung der sprachlichen Daten durch den Computer zugrundeliegen.
eine historische:
Ausgehend von diesem Modell sollen in einer Art Rückwärtsbewegung die einzelnen Entwicklungsphasen festgestellt werden, die zu den Verschiedenheiten in den brasilianischen und portugiesischen Sprachnormen geführt haben.

Die Datenaufnahme erfolgte über Lochstreifen.

Da vom Programm nur rein Formales erkannt und verarbeitet werden kann, mußten die Wörter, die nicht durch ihre graphematische Form eindeutig identifizierbar, aber doch für die Analyse der syntaktischen Struktur des Satzes von Bedeutung sind, eigens gekennzeichnet werden (z.B. durch +, + oder = davor).

Nicht extra gekennzeichnet werden mußten z.B.:

die Adverbien (sie enden immer auf -mente, und kein anderes Wort endet so)
die Personalpronomina
die Präpositionen.

Gekennzeichnet werden mußten z.B.:

substantivisches Subjekt
Hauptverb
Hilfsverb
die einzelnen Verbformen.

Das Programm erstellte zu jedem Satz eine Analyseformel, in der die ermittelte syntaktische Struktur des Satzes steht, ob der Satz ein Frage- oder Aussagesatz oder direkte Rede ist, zu welcher Literaturgattung er gehört, ob er aus brasilianischer oder portugiesischer Literatur stammt etc. Diese Analyseformel bildet das Kriterium, nach dem alle Sätze dann sortiert werden. Abschließend wird das Ergebnis der Sortierung, d.h. die richtig geordneten Sätze, mit den entsprechenden Haupt- und Zwischenüberschriften ausgedruckt, ebenso die absoluten und relativen Häufigkeiten der Sätze pro Struktur.

Diskussion

Bei der Textauswahl besteht die Gefahr der subjektiven Auswahl in Richtung auf das intendierte Untersuchungsergebnis. Die große Zahl von über 8350 Sätzen vermindert hier jedoch das Risiko. Eine mögliche Kontrolle bestünde z.B. in der Auswahl eines ähnlichen Textkorpus durch eine zweite Person.

Die Textauswahl trägt der Forderung nach Exaktheit dadurch Rechnung, daß möglichst äquivalente Texte aus beiden Sprachen und eine gleiche Zahl von Sätzen für jede Sprache ausgewählt wurde.

Gunther Franz (UB) / Dirk Kottke

Register zum Zeitschrifteninhaltsdienst (ZID) Theologie

Der UB Tübingen ist als Sondersammelgebiet das Fach Theologie zugeteilt. Zur aktiven Information über die in Zeitschriften neu erscheinenden Beiträge gibt die UB mit Unterstützung der DFG sechsmal pro Jahr den ZID Theologie heraus. Unmittelbares Vorbild dafür sind die in Amerika erscheinenden Current Contents für einzelne naturwissenschaftliche Fächer. In Deutschland gibt es bereits in einfacherer Form Current Contents Linguistik (CCL), die vom Sondersammelgebiet Linguistik in Frankfurt herausgebracht und von der DFG gefördert werden.

Für den ZID der UB Tübingen wurden etwa 350 Zeitschriften, das ist etwas weniger als die Hälfte der hier laufenden Zeitschriften, ausgewählt. Das Gebiet der Theologie wurde dafür in 12 Sachgruppen untergliedert. Jede Zeitschrift wurde einer dieser Sachgruppen zugeordnet. Innerhalb der Sachgruppen werden die einzelnen Zeitschriften in alphabetischer Reihenfolge mit ihrem Inhaltsverzeichnis (als Kopie) abgedruckt. Jedes Heft enthält am Schluß ein Verfasserregister. Die Verfasserregister der einzelnen Hefte sollen jährlich zu einem getrennt erscheinenden Verfasserregisterheft kumuliert werden. Geplant ist außerdem eine weitere Erschließung durch die Beifügung eines Personenregisters mit den in den Aufsatztiteln genannten Eigennamen.

Die Verfasserregister in den einzelnen Heften des ZID werden am ZDV Tübingen erstellt. Bei der Datenerfassung wird jede Seitenzahl (gekennzeichnet durch das Sonderzeichen =) des ZID-Heftes nur ein Mal geschrieben, dahinter, durch Strichpunkt getrennt, die Autorennamen. Die Datenerfassung erfolgt über Lochstreifen. Die korrigierten Daten werden per Programm für die Sortierung aufbereitet und sortiert. Die Ausgabe der sortierten Daten erfolgt zweispaltig in DIN-A-4 Format auf dem Schnelldrucker. Die mögliche Anwendung der Satzprogramme entfällt aus Gründen der Zeit- und Kostenersparnis.

Diskussion

Für eine wünschenswerte weitergehende Erschließung der Aufsatztitel, z.B. durch ein Sachregister oder einen KWIC-Index, stehen weder die personellen noch die finanziellen Mittel zur Verfügung.

Erdmann Weyrauch (SFB 8 = Spätmittelalter und Reformation)

Sozialschichtung in süddeutschen Städten im 15./16. Jahrhundert
(Auswertung von Steuerbüchern)

Im Sonderforschungsbereich 8 an der Universität Tübingen arbeitet das Forschungsteam Z2 an Analysen zur Sozialschichtung in zehn ausgewählten Städten Süddeutschlands im 15. und 16. Jahrhundert. Ausgangspunkt der Untersuchungen ist die Auswertung von Steuerbüchern.

Die Städte, insbesondere die Reichsstädte haben bereits im ausgehenden Mittelalter ein ausgedehntes Steuersystem entwickelt und waren dabei zur Anlage von Steuerkatastern, Steuerlisten oder -büchern gelangt. Es handelt sich in der Regel um die namensmäßige Erfassung aller steuerpflichtigen Bürger mit Angabe der Steuersumme, in der Regel des Stadtviertels bzw. der Wohnstraße, zum Teil ist auch der Beruf vermerkt. In selteneren Fällen wurde eine detaillierte Erfassung des Gesamtvermögens durchgeführt.

Dies trifft etwa für die Steuerbücher der Stadt Kitzingen zu, die im ersten Zugriff ausgewertet werden. Sie bieten pro Steuerpflichtigen teilweise mehr als zwei Dutzend verschiedene Einzelangaben. Pro Steuerbuch sind das etwa 7000 bis 8000 Einzeldaten.

Für die zwei zur Bearbeitung vorgesehenen Jahrhunderte werden durchschnittlich sechs bis sieben Untersuchungsquerschnitte pro Stadt kalkuliert. Dies ergibt auf der Basis der damaligen Bevölkerungszahlen insgesamt etwa 100.000 bis 110.000 Personeneinträge. Wenn pro Personeneintrag im Durchschnitt nur fünf Angaben (Jahr, Steuersumme, Straße, Name, Geschlecht) gerechnet werden, steht eine Masse von 500.000 Daten zur Organisation, Verwaltung und Verarbeitung an. Zur Entscheidung des Teams Z2, die EDV zu Hilfe zu nehmen, bestand angesichts dieser Datenfülle keine reelle Alternative.

Es gibt bislang kaum ein halbes Dutzend historischer Untersuchungen von Steuerbüchern (oder vergleichbaren Quellen), in denen EDV angewendet wurde. Insofern kann das vom Team Z2 in Angriff genommene Forschungsvorhaben als Neuland gelten.

Grundlage für die praktische Arbeit des Teams ist SAPHIR (Stratificational and Prosopographical Historical Research). SAPHIR enthält Konventionen für die Erstellung maschinenlesbarer Belege (OCR-A) und bisher vier in FORTRAN geschriebene Programme. Diese Programme erstellen aus den eingelesenen Daten

die ALPHA-Liste (alphabetische Liste der Steuerzahler)
die Rang-Liste (Liste der Steuerzahler nach der Höhe der Steuersumme geordnet)
Häufigkeitsverteilungskurven.

Ein viertes Programm (VERGL) vergleicht die zur erleichterten Korrektur doppelt getätigte Eingabe der einzelnen Steuerbücher. Die ausgedruckten Listen sind im Hinblick auf das Untersuchungsziel nur als vorläufige Arbeitsunterlagen anzusehen.

Mittel- und langfristig wird SAPHIR zur Bewältigung der gestellten Aufgabe, stratifikatorische Analysen zu ermöglichen, erheblich zu erweitern sein. So ist z.B. die Programmierung des Erhebungsbogens zur Bestimmung der sozialen Position vorgesehen, der in formalisierter Form in etwa 75 Merkmalsstellen Daten für jeden einzelnen Angehörigen der Führungsschicht speichern soll, oder die statistische Auswertung (deskriptiv, analytisch) der Gesamtdaten mittels EDV. Die Prüfung, ob gegebenenfalls die Anwendung von SPSS (Statistical Package for the Social Sciences) in Frage kommt, ist noch nicht abgeschlossen.

Diskussion

Die quantitative Geschichtsforschung ist heftig umstritten und in ihrer Methodik noch nicht gefestigt. Bei Quellen mit Zahlenmaterial läßt sie sich jedoch nicht umgehen.

Die Angaben in den Steuerbüchern sind in der Reihenfolge eingetragen in der der Steuereinzieher die Steuerzahler aufsuchte. Insofern ist bei der Stichprobenbildung Vorsicht geboten, damit keine einseitige Auswahl, z.B. eines besonders von wohlhabenden Bürgern bewohnten Stadtteils, getroffen wird. Auch die Heranziehung aller Steuerzahler mit einem bestimmten Anfangsbuchstaben kann nur nach sorgfältiger Überprüfung erfolgen (einseitig wäre z.B. in Augsburg eine Stichprobe für den Buchstaben F).

(Die Kurzfassungen der Referate wurden von den Referenten zur Verfügung gestellt.)

Allgemeines

Da Frau Dr. Adelheid Schwab für die Organisation dieses Kolloquiums zum letzten Mal als Mitarbeiterin des ZDV zur Verfügung stand (sie verläßt Tübingen am 31.7.1975), sprachen ihr die Kolloquiumsteilnehmer Dank aus für ihre Arbeit bei der Organisation der Kolloquien; sie hat zum Gelingen der bisherigen Kolloquien viel beigetragen.

Zur Übersicht über die bisherigen Kolloquien

tustep@zdv.uni-tuebingen.de - Stand: 19. März 2002

Wilhelm Ott

Bericht über die Gründungsversammlung der LDV-Fittings

Adelheid Schwab

Programme zur Untersuchung von Graphemfolgen in Wörtern

Diskussion

Elisabeth Corsetti (Romanisches Seminar) / Adelheid Schwab

Unterschiede zwischen der zeitgenössischen portugiesischen Sprache Brasiliens und der Portugals anhand der Stellung der Personalpronomina

Diskussion

Gunther Franz (UB) / Dirk Kottke

Register zum Zeitschrifteninhaltsdienst (ZID) Theologie

Diskussion

Erdmann Weyrauch (SFB 8 = Spätmittelalter und Reformation)

Sozialschichtung in süddeutschen Städten im 15./16. Jahrhundert (Auswertung von Steuerbüchern)

Diskussion

Allgemeines

Sozialschichtung in süddeutschen Städten im 15./16. Jahrhundert
(Auswertung von Steuerbüchern)