Protokoll des 9. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 14. Februar 1976

 

Wilhelm Ott

Programme zur Erstellung von Indizes und Registern

"Erstellung von Indizes und Registern" kann zwei relativ verschiedenartige Arbeiten bezeichnen:
  • die Verarbeitung aller Elemente (Wörter, Wortformen) eines Textes zu alphabetisch oder anders geordneten Listen (hier "Indizes" genannt), denen etwa Häufigkeitsangaben oder Belegstellen-Nachweise (Referenzen) beigegeben sind;
  • das Verarbeiten von ausgewählten Elementen (etwa: Stichwörter, Eigennamen) eines Textes oder von Deskriptoren, die den Inhalt eines Textes beschreiben, ohne selbst wörtlich im Text enthalten zu sein, zu alphabetisch (oder anders) angeordneten Listen mit Angabe von Seiten-Nummern.

"Indizes" und "Register" unterscheiden sich oft auch in ihrem Verwendungszweck: Indizes sind häufig intermediäres Arbeitsmittel z.B. für Zwecke der Vorbereitung einer Edition; Register sind häufig dazu bestimmt, als Anhang zu einem publizierten Werk dieses für den Leser zu erschließen. Daraus ergibt sich, daß zumindest bei Registern die typographische Aufbereitung (normalerweise für den Lichtsatz) eine Rolle spielt; Indizes sind, wenn sie publiziert werden sollen, meist erst nach einer Zwischen-Bearbeitung publikationsreif.

Die Register-Programme müssen also offen sein für die Programme, die zur Publikation von Texten notwendig sind; die Index-Programme, die die "Elemente" von Texten verarbeiten sollen, müssen in jedem Fall eine direkte Verbindung zu den übrigen Textverarbeitungsprogrammen haben. Für beides, Index- und Register-Programme, ergibt sich also die Notwendigkeit einer möglichst engen Einbettung in ein System von Programmen zur Textverarbeitung.

Der erste Teil des Referates erläuterte deshalb anhand einer graphischen Übersicht das System der Tübinger Textverarbeitungsprogramme. Diese Programme gruppieren sich um zwei interne Darstellungsformen ("Formate") für Daten:

  • ein Format für "Text"-Dateien,
  • ein Format für Dateien von "Text-Elementen".
Das "Text"-Format sieht im wesentlichen neben dem Informationsfeld für die eigentlichen Text-Daten (die zweckmäßigerweise nach einheitlichen Konventionen erfaßt werden, etwa für die Darstellung der Akzente und diakritischen Zeichen nach den Konventionen für die Tübinger Satzprogramme) eine Numerierung jeder Zeile vor (gleichgültig, ob es sich dabei um fortlaufende Texte oder etwa um Korrekturanweisungen oder Register-Stichwörter handelt), die entweder vom Benutzer bei der Erfassung festgelegt wird oder automatisch vergeben wird; diese Nummer wird von einem Teil der Programme als Seiten- und Zeilen-Nummer interpretiert; sie ermöglicht auch, daß Textteile, die nicht in der endgültigen Reihenfolge erfaßt wurden, anhand dieser Nummer sortiert werden.

Das Format für "Text-Elemente" enthält darüber (d.h. über ein Feld für die "Vorlage-Form" des Text-Elementes und über ein 16-stelliges Feld für Referenz und Zusatzinformation) hinaus vor allem bis zu drei zusätzliche Felder, in denen die "Vorlage-Form" des Text-Elements für Sortierzwecke aufbereitet und umcodiert enthalten ist.

Die vom ZDV zur Verfügung gestellten Textverarbeitungs-Programme selbst gliedern sich in folgende 5 Hauptgruppen:

  1. Eingabe-Programme (CCPY, ULMA, PTIN, TXTED); vorgesehene Eingabemedien sind: Lochkarte, Lochstreifen, Magnetband (normalerweise erstellt über OCR-Belege, die auf einer normalen Kugelkopf-Schreibmaschine beschrieben und automatisch gelesen werden können) und on-line-Erfassung über Tastatur und Bildschirm. Diese Programme speichern die erfaßten Texte im oben beschriebenen "Text"-Format ab.
  2. Programme für Korrektur, Umcodierung, Umwandlung, Umstellung, Aufbereitung, Vergleich verschiedener Fassungen, Druckaufbereitung für Zeilendrucker oder für Setzmaschine (TETR, TEKO, UMST, TXTED, XCPY, TVGL, PRNT, SATZ). Hier werden die Daten schon im "Text"-Format erwartet und in der aufbereiteten Form wieder im gleichen Format abgespeichert (bei den Druck-Aufbereitungsprogrammen zusätzlich auch in anderen Formaten, z.B. als Steuer-Band für die Setzmaschine).
  3. Programme zum Auswerten von Text-Daten, z.B. Wort-, Satzlängen-Statistik (STATW, STATS; KLIC, GRAPH; KWIC).
  4. Programme zum Umwandeln vom Text-Format in das Format für Text-Elemente (WI1; REG2, REG3), d.h.: Zerlegen eines Textes in seine Elemente und Abspeichern in sortierfähiger Form.
  5. Programme zur Bearbeitung von Daten im Text-Elemente-Format nach der Sortierung und Umwandlung zurück ins Text-Format (WI2, WI3, WI4; WH1, WH2; REG9). Für Index- und Register-Erstellung werden an dieser Stelle mehrfach vorkommende Stichwörter zusammengefaßt und mit den Referenzen versehen; das Ergebnis wird entweder nur ausgedruckt oder zur weiteren Verarbeitung im Text-Format abgespeichert. Die eigentliche Sortierung wird mit Standard-Programmen der Computer-Hersteller durchgeführt.

Der zweite Teil des Referates ging dann darauf ein, welche Programme zur Index- und Register-Erstellung bisher vorgesehen sind und wie diese Bausteine in das System von Textverarbeitungsprogrammen eingebaut sind; das KWIC-Programm (keyword-in-context-Konkordanz) wurde ausgespart (vgl. dazu das Protokoll des 6. Kolloquiums vom 15.2.1975).

  1. Index-Erstellung:
    1. Programm zur Zerlegung des Textes in seine Elemente und zur sortierfähigen Abspeicherung dieser Elemente (WI1). Dabei wird vom Benutzer angegeben, welche Zeichen er als Wort-Bestandteile und welche er als Trennzeichen zwischen Wörtern (Text-Elementen) verstanden wissen will, wie die (bis zu 3 verschiedenen) Sortierfelder aufgebaut werden sollen (etwa: Behandlung der Umlaute und Akzentbuchstaben), nach welchem Alphabet (etwa bei einem transkribierten Text aus einem nicht-lateinischen Alphabet) sortiert werden soll, welche Zeichen in der Sortierung als gleich gelten sollen. Dieses Programm setzt das Text-Format voraus und erzeugt Daten im Text-Elemente-Format.
    2. Programme zum Aufbau der verschiedenen Formen von Indizes; vorgesehen sind:
      1. alphabetischer Wortformen-Index (WI2) mit oder ohne Stellenangaben, mit oder ohne Häufigkeitsangaben,
      2. rückläufiger Wortformen-Index (WI3, WI4) mit oder ohne Stellenangaben,
      3. nach Häufigkeiten der Wortformen geordnete Indizes mit oder ohne Stellenangaben (hierfür wird nach der alphabetischen Sortierung und der Reduzierung von mehrfach vorkommenden Formen - vgl. b.1. - diese Information wieder im Text-Elemente-Format abgespeichert, nach Häufigkeiten sortiert und anschließend ausgegeben).
      Diese Programme erwarten sortierte Daten im Text-Elemente-Format; die Ausgabe geschieht über den Drucker und/oder im Text-Format für die Weiterverarbeitung.

  2. Register-Erstellung:
      1. Programme zum Herausziehen der (im Text durch doppelte bzw. dreifache Klammern + Kennbuchstaben für eines von bis zu 36 verschiedenen Registern gekennzeichneten) Register-Einträge aus dem (normalerweise vorher durch das Satz-Programm typographisch aufbereiteten und fertig seitenumbrochenen) Text, Aufbauen der Sortierfelder (wie bei 1.a.), Aufteilung auf die verschiedenen Register, Abspeichern im Text-Elemente-Format (REG1, REG2). Die Programme werden eingesetzt, wenn in einem zu publizierenden Text Register-Stichwörter enthalten sind, die nach dem Seitenumbruch automatisch zu Registern verarbeitet werden sollen (Beispiel: Kataloge der Lehrbuchsammlung der UB, vgl. das Protokoll des 4. Kolloquiums vom 6.7.1974, Referat Seck).
      2. Programme, die im Text-Format abgespeicherte Index-Stichworte in das Text-Elemente-Format (wie unter a.1. beschrieben) umwandeln (REG3). Diese Programme werden angewandt, wenn die Registereinträge nicht automatisch aus einem ohnehin in der Maschine befindlichen Text extrahiert werden können, sondern manuell erfaßt werden müssen (Beispiel: Register zum ZID Theologie der UB, vgl. das Protokoll des 7. Kolloquiums vom 21.6.1975, Referat Franz/Kottke).
    1. Programme zur Zusammenstellung und typographischen Aufbereitung der Register aufgrund der sortierten Einträge. Vorgesehen ist hier vor allem eine Vielzahl von typographischen Steuerungsmöglichkeiten (z.B. Einsetzen einer Tilde anstelle der Wiederholung von gleichen Bestandteilen eines Register-Eintrages; typographische Auszeichnung von einzelnen Einträgen oder Stellenangaben, usw.). Die Ausgabe erfolgt im Text-Format zur Weiterverarbeitung über die Korrektur-, Druck- und Satzprogramme.

Diskussion

Auf Detailfragen zur Codierung von Registereinträgen im Text ergab sich, daß in den Standard-Programmen eine automatische Umkehrung von Register-Doppelbegriffen nicht vorgesehen ist, daß jedoch an dieser Steile ein einfaches Zwischenprogramm (eventuell vom Benutzer selbst) eingefügt werden kann. Bei Einsatz anderer als der hier besprochenen Standardprogramme ist auch eine abweichende Codierung möglich. So wurden z.B. schon für Personenregister die Namen der Personen vorgegeben und im Kontext abgesucht.

Die Frage nach der Möglichkeit, Register nach Über- und Unterbegriffen mittels eines vorgegebenen Thesaurus zu strukturieren, erhielt zur Antwort, daß Im Standard-Programm nicht mehr als vier Unterstufen vorgesehen seien; auch hierfür wären nach der Sortierung zusätzliche Programme erforderlich.

Als Desiderat wurde eine Konkordanz der in den Textverarbeitungs-Programmen standardmäßig vorgesehenen Sonder- und Steuerzeichen für die verschiedenen Maschinen und Ein/Ausgabemedien genannt; sie soll, sobald die entsprechenden Programme fertig sind, zur Verfügung stehen. Eine komplette Liste des augenblicklichen Standes der Satzsteuerzeichen existiert ebenfalls; sie ist jedoch in den meisten Fällen nur zusammen mit Beratung sinnvoll zu benutzen, Deshalb wurde bisher meist die Beratung im Einzelfall vorgeschlagen.
 

(Die Kurzfassung des Referates wurde vom Referenten zur Verfügung gestellt.)

 


Zur Übersicht über die bisherigen Kolloquien
tustep@zdv.uni-tuebingen.de - Stand: 22. Februar 2002