Richtlinien zur Indexierung von Online-Katalogen

Entwurf
zusammengestellt von B. Eversberg
2.4.2004


Wort-Indexierung String-Indexierung Personennamen-Indexierung  
Nummern-Indexierung
Anhang: Nichtsortierzeichen-Sonderbehandlung

Diese Darstellung hat noch nicht den Charakter eines Regelwerks, sondern stellt erst einmal bestehende Möglichkeiten zusammen und versucht, einige Anforderungen zu konkretisieren. Vermutlich können, wegen der Vielfalt der technischen Realisierungen, keine vergleichsweise strikten Regeln aufgestellt werden wie in anderen Teilen eines Katalogisierungs-Regelwerks. Im Interesse der Nutzer sind jedoch Angleichungen wünschenswert, die über den bisherigen Stand deutlich hinausgehen.

Sinn der Richtlinien
Die neuen "Regeln für die Formalkatalogisierung (RFK)" sollen auch ein Kapitel zur Indexierung enthalten. Die grundlegenden Überlegungen dazu sind hier dargelegt.

Die traditionellen Ordnungsregeln in den RAK hatten zum Ziel, die Katalogzettel in eine präzise festgelegte lineare Abfolge zu bringen, die für den Nutzer logisch nachvollziehbar war. Dazu waren die Ansetzungsregeln in einer Weise durchdacht, dass die Ansetzungsformen der Namen und Titel schon weitgehend mechanisch geordnet werden konnten. Die Ordnungsregeln mussten dann nicht mehr auf inhaltliche Aspekte Bezug nehmen, sondern konnten die in den "Köpfen" vorliegenden Zeichenketten mechanisch sortieren und es ergab sich wie von selbst eine logisch plausible Abfolge.

In Online-Katalogen dagegen haben die Datensätze intern keine lineare Abfolge. Der Zugriff geschieht in jedem Fall über Indexdateien sowie Kurzlisten von Teilmengen der Datenbank. An der Oberfläche mögen aus Sicht des Nutzers große Unterschiede zwischen den Katalogen bestehen, doch prinzipiell sollten logisch gleiche Abfragen unabhängig vom System bei gleichen Daten zu gleichen Resultaten führen. Dazu ist es notwendig, die Struktur der Indexdaten und Kurzlisten zu regeln, und zwar im selben Sinne wie früher die Anordnung der geköpften Karten: aus den Ansetzungsformen und anderen Titeldaten sollen wohldefinierte Zugriffskriterien gebildet werden.

Die Vielfalt der technisch möglichen Konstruktionen kann man nicht bis ins Kleinste reglementieren, zumal noch jederzeit technische Innovationen eintreten können. Die "Regeln für die Formalkatalogisierung" müssen zunächst darauf abzielen, diejenigen Zugriffe zu normieren, die zur Erfüllung der definierten Aufgaben des Kataloges nötig sind. Darüber hinaus sollen die Regeln Empfehlungen geben, in welcher Weise mit den Formaldaten weitere Zugriffsmöglichkeiten eröffnet werden können, die in konventionellen Katalogen nicht realisiert werden konnten.


Register für die Suche

Anders als im Zettelkatalog mit seiner linearen Abfolge aller Zettel kann es im Online-Katalog mehrere alphanumerisch geordnete Listen (sog. Zugriffsregister oder kurz
Register) geben, die von der Software automatisch geführt werden. Diese Register müssen sich nicht auf eine Abbildung der klassischen Zettelabfolge in eine Folge von Registereinträgen beschränken, sondern aus dem gesamten Datenmaterial der Titelaufnahmen kann mit geeigneten Algorithmen jede für sinnvoll erachtete Art von Zugriffsregistern konstruiert werden. Wenn Kataloge vergleichbar sein sollen, müssen daher die Regeln Vorgaben machen,
Ansetzungs- und Verweisungsformen sowie deskriptive Elemente können nicht unbedingt ohne jede Veränderung in maschinelle Register überführt werden, sondern müssen durch ein Programm vorher in spezifischer Weise vorbehandelt werden.

Vorverarbeitung der Nutzereingabe
Eine Katalogsoftware sollte die Eingaben des Nutzers formal so vorverarbeiten, dass sie der Struktur der Register entsprechen. So können unnötige Misserfolge vermindert werden. Die nachfolgend beschriebenen Verfahren sind deshalb sinngemäß auch auf die Nutzereingaben anzuwenden. Die Vorverarbeitung der Eingabe kann darüber hinaus noch weitere Hilfestellungen leisten, so z.B. eine Eingabe "Vorname Nachname" (Komma fehlt) umwandeln in "Nachname, Vorname", doch ist hierbei Umsicht nötig, damit nicht die absichtsvolle Eingabe eines erfahrenen Nutzers verfälscht wird oder undurchschaubare Resultate herauskommen.


Zugriffsarten
Es ist zweckmäßig, als Minimum folgende Arten von Registern zu unterscheiden:

1.
Namensregister, getrennt oder getrennt abfragbar als
1a.
Personennamen
1b.
Körperschaftsnamen (siehe 3.)
1c.
Namens-Stichwortregister (d.h. bei Personen: Vornamen und Familiennamen getrennt)
2.
Stichwortregister für die Wörter, aus denen die Titel und Körperschaftsnamen bestehen
3.
Zeichenfolgenregister ("String"-Register) für die Titel einschl. der Gesamttitel
4.
Nummernregister für Identnummern aller Art
5.
Register für lokale und für nichtbibliographische Kriterien, z.B. Signaturen oder Geschäftsgangsdaten (nicht Gegenstand der Regeln)

Ein System kann von jedem dieser Typen mehrere verschiedene anbieten, z.B. getrennte Wortregister für Titel-, Körperschafts- und Tagungsnamen, oder aber nur je ein kombiniertes Register für jeden dieser Typen.

Möglich ist ferner ein Gesamt-Wortregister (sog. "Basic Index" oder "ALL-Register") mit mehr als nur den Wörtern der Titelfelder. Dazu können auch die Namen in Wörter zerlegt und es können ausgewählte oder alle Teile (einschl. Fußnoten) der bibliographischen Beschreibung mit herangezogen werden.

Kombinierte Register
Ein System kann auch weitere Formen von Registern anbieten, z.B. kombinierte Name+Titel-Register (sinnvoll z.B. für Komponist+Einheitstitel), Verlag+Jahr-Register, u.a.m.

Titelstichwörter als Zugriffselemente sind in so gut wie allen Online-Katalogsystemen zu finden, auch Zugriffe über den Titel als Phrase (oder wenigstens seinen Anfangsteil) gibt es in sehr vielen Systemen.  Unterschiede bestehen aber in der Art und Weise, wie die Wörter und Titel aufbereitet werden. Katalogisierungsregeln haben sich bisher nicht mit diesen Fragen beschäftigt, vielmehr ist es weitgehend den Systementwicklern überlassen worden, wie sie die Aufgaben verstehen und lösen.
Besonders in virtuellen Katalogen wie dem KVK zeigt es sich, dass Regeln notwendig sind, denn sonst ist unklar, auf  welche Art der Abfrage man sich verlassen kann oder eben nicht. Diese Ausarbeitung soll einen Ansatz dazu bieten.

Anm.: Die Richtlinien sind im Prinzip unabhängig davon, ob das Katalogsystem die Register sichtbar macht und den Nutzer darin blättern lässt oder nicht. Die Erfahrung zeigt, dass es sehr hilfreich sein kann, in sichtbaren Registern zu blättern, denn man sieht darin nicht nur, was wirklich vorhanden ist, sondern auch, was nicht vorhanden ist - weil es z.B. anders geschrieben wird oder weil es mehr als eine Schreibweise gibt.
Virtuelle Kataloge haben keine sichtbaren Register, weil es erstens programmtechnisch sehr schwierig wäre, Register aus mehreren Katalogen zu einer gemischten Anzeige zu vereinigen und zweitens, weil die Realisierung in den konkreten Systemen sehr unterschiedlich aussehen und daher nicht zu einer vereinheitlichten Form zusammengefasst werden kann, oder weil bei manchen Systemen gar kein für eine Anzeige geeignetes Register existiert.

Normdaten
Wenn in einem Katalog Normdaten konsequent zum Einsatz kommen, sind getrennte Normdaten-Register sinnvoll. Das Suchen und Blättern in den normierten Namen und Titeln sowie den Verweisungsformen kann im ersten Schritt zu der maßgeblichen Ansetzungsform eines Namens oder Titels und im zweiten Schritt zu den damit verknüpften Eintragungen hinführen. Beide Schritte können im Normalfall automatisch hintereinander ablaufen, so dass man bei Eingabe einer Verweisungsform automatisch die mit dem zugehörigen Normsatz verknüpften Einträge erhält. Normdaten sollten, wie Titeldaten, in mehrfacher Weise indexiert werden, um die Suche über Wörter und Wortkombinationen wie auch über Phrasen zu gestatten. Auch für Normdaten ist ein sichtbares Register zum Blättern unbedingt notwendig, um das Auffinden bei nicht genau bekannter Schreibweise zu erleichtern.

Registeranzeige bei ergebnisloser Suche
Wenn eine Suchanfrage ergebnislos ist, soll das System, so weit wie möglich, einen passenden Registerausschnitt anzeigen, d.h. dem Nutzer einen Einblick geben in die Umgebung des nicht gefundenen Suchbegriffs. Damit können viele Fehleingaben abgefangen und Nutzer zwanglos zur richtigen Schreibweise hingeführt werden. Dieser Effekt ergab sich beim Zettelkatalog aus der Natur der Sache ganz von selbst und wurde durch Leitkarten noch unterstützt. Hinter diesem Komfort soll ein Online-Katalog nicht zurückbleiben.

Kurzlisten sollen Gefundenes überschaubar machen
Typisch für Online-Kataloge und völlig neu im Vergleich zu Zettelkatalogen ist es, dass dem Nutzer Ergebnismengen vorgelegt werden. Das sind Teilmengen des Katalogs,  bestehend aus den Datensätzen, die der Anfrage des Nutzers entsprechen. Ergebnismengen müssen zunächst in möglichst knapper Form (und nicht etwa Titel für Titel einzeln hintereinander)
und in sinnvoller Ordnung angezeigt werden, damit der Nutzer sich zunächst einen Überblick verschaffen kann, ob seine Anfrage erfolgreich war, und damit er dann den oder die Titel auswählen kann, die seinen Interessen am meisten entsprechen. Die Kurzanzeige der Ergebnismenge muss folglich diejenigen Elemente enthalten, die erfahrungsgemäß für Überblick und Auswahl am besten geeignet sind. Die Anordnung sollte zumindest wahlweise eine alphabetische nach Verfasser und/oder Titel oder eine umgekehrt chronologische sein (d.h. neueste Titel zuerst). Ein System kann darüber hinaus auch noch andere Anordnungen anbieten. Wenn es um die Anzeige der Werke eines Verfassers geht, sollte das System zu jedem Werk die vorhandenen Ausgaben zusammenfassen können - dies setzt die Verwendung von Einheitstiteln voraus. 
Sonderfall einer Ergebnismenge: Bei der Anzeige von Gesamtwerken muss es eine zusammenfassende Anzeige der zugehörigen Teile in einer logisch sinnvollen Reihenfolge geben: mehrbändige Werke und Serien sollen also in der Folge der Bandnummern angezeigt werden.

Einschränkung von Suchergebnissen
Früher manchmal "Sekundäraspekte" oder ähnlich genannt, weil man damit nicht direkt suchen konnte, bieten sich Kriterien wie Erscheinungsjahr, Sprache, Materialart und Dokumenttyp dazu an, große Ergebnismengen zu verkleinern  Als Minimum kann wohl nur das Erscheinungsjahr erwartet werden, andere Kriterien sind selten konsistent erfasst worden.

Phrasensuche
Darunter versteht man im Allgemeinen  die Möglichkeit, nach dem Vorhandensein von exakten Wortfolgen suchen zu können, manchmal auch so, dass zwischen zwei vorgegebenen Wörtern  in den Suchergebnissen noch eine bestimmbare Anzahl oder aber beliebig viele andere Wörter stehen können. Hilfreich sind solche Verfahren, wenn dem Nutzer prägnante Wortfolgen aus dem Innern eines Titels oder Namens bekannt sind. Programmtechnisch realisiert werden solche Funktionen in der Regel auf der Basis von Wortregistern, hängen also von deren Qualität ab, wobei  jeder Eintrag in der Registerdatei eine Zahl mit sich führt, die angibt, an welcher Position der Wortfolge des Katalogisats dieses Wort steht.



Wort-Indexierung

Grundsatzentscheidungen

Zuerst ist genau festzulegen, welche Felder und evtl. Teilfelder wortweise zu indexieren sind. Als Minimum gelten alle Titelfelder einschließlich der Zusätze und alle Körperschaftsnamen. Hinzukommen können Serientitel und sodann Personennamen, um auch die Suche nach Vornamen zu ermöglichen.

Die Zerlegung der Felder in Worte und deren Aufbereitung soll für alle Wortregister nach demselben Verfahren erfolgen.


Verfahren zur Wort-Indexierung

Das Indexieren von Zeichenketten (Strings) wie Titeln oder Namen auf Wortebene setzt zunächst einmal voraus, daß diese Zeichenketten in Wörter zerlegt werden. Sodann ist zu regeln, wie bei der Indexierung Sonderbuchstaben (Umlaute, Ligaturen), Akzentbuchstaben, sowie Interpunktions- und Sonderzeichen zu behandeln sind.

Beispiele von Titeln zur Illustration der Detailprobleme:

Die Kaiser-Wilhelm-Gedächtnis-Kirche von Egon Eiermann in West-Berlin
Natur – Mensch – Technik
Wasser-, Nähr- und Schadstoffdynamik
Lern-, handlungs- und tätigkeitspsychologische Modelle
Wasserstoff, die Energie für alle Zeiten
Kaiser, Reichspräsident und U. S. A. Präsident
C++- und Smalltalk-Quellcode
C*-algebras and W*-algebras
C*- und W*-Algebren
Untersuchung der Endzustände µ+µ- und e+e- am Elektron-Positron-Speicherring Doris
Calcium/Calmodulin-bindende Proteine
Das 8086/8088-Buch
2,5-N,N'-Dicyandiimin-2,5-dihydrothieno(3,2-b)thiophene (DCNTT)
A D. H. Lawrence Handbook
Who's who in CIA
Usines d'aujourd'hui
De l'origine des choses
Le origini dell'urbanistica moderna <dt.>
Von α,β-ungesättigten Ketonen und ihren Oxymen
[alpha]v[beta]3-Integrin Inhibitoren durch räumliches Screening
Dem Zufall (k)eine Chance!?
D[okto]r Murkes gesammeltes Schweigen
Es muß ein Algorithmus aufgestellt werden, der daraus Registerwörter (= Indexeinträge) für ein konsistentes und den anzunehmenden Benutzererwartungen entsprechendes Retrieval bildet.

Der nachfolgende Vorschlag versucht eine knappe und präzise Formulierung. Ob die einzelnen Schritte tatsächlich so programmiert werden können, richtet sich nach den Möglichkeiten eines Systems. Eine Veränderung der Reihenfolge dieser Schritte kann jedoch unterschiedliche Ergebnisse zur Folge haben!

Schritt 0 : Sonderbehandlung für Punkte und Teilfeld-Codes

Ersetze Punkt vor Ziffer durch Komma, sonst durch Leerzeichen. Dadurch wird das manchmal fehlende Leerzeichen nach Abkürzungspunkten ergänzt, Dezimalzahlen bleiben aber erhalten und werden vereinheitlicht, denn in diesen können sowohl Komma wie Punkt auftreten.

Mögliche Verfeinerung: folgt dem Punkt ein Buchstabe und ein weiterer Punkt, dann ersatzlose Beseitigung. (Aus U.S.A. wird dann USA, doch U. S. A. wird zu  U S A ). Nach den RAK-Abkürzungsregeln (§202) sollten Initialfolgen und Akronyme ohne Punkte, aber jedenfalls ohne Spatien angesetzt werden, das ist jedoch in den Daten nicht konsequent so anzutreffen.

Relevant bei MARC-Daten: Ersetze Teilfeld-Codes, falls vorhanden (z.B. $b) durch Leerzeichen (d.h. aus "$b" wird " "). Teilfelder, die nicht zu indexieren sind, müssen vorher enrtfernt werden.

Schritt 1 : Zerlegung der Zeichenketten in Wörter

  1. Zerlegung an den Leerzeichen (Blank), d.h. Bildung der Teilketten, die durch Leerzeichen begrenzt sind.
  2. Verfeinerung: Beseitige innerhalb des Wortes Einschlüsse in [...]. (Siehe Beispiel am Ende)
    Beseitige dann die Zeichen  - / ' ( ) < > [ ] aus den so entstandenen "Wörtern". (West-Berlin ==> Westberlin)
    Verfeinerung: Ersetze Großbuchstaben innerhalb eines Wortes, wenn ein Kleinbuchstabe direkt vorangeht (sog. Binnenmajuskeln) durch Kleinbuchstaben. So wird aus See-Elefant dann Seeelefant (siehe Schritt 2) und aus Flussschiff-Fahrt wird Flussschifffahrt.
  3. Nochmalige Zerlegung, bei der aber als Trennung jedes der Zeichen Blank, Bindestrich, Apostroph und Schrägstrich gilt, außerdem die Klammersymbole < > ( )
    (so entstehen aus "West-Berlin" auch noch die zwei Wörter West und Berlin)
Bei Titeln ohne Sonderzeichen sind die Ergebnisse der Schritte 1. und 2. gleich. Es versteht sich aber ohnehin, daß kein Wort für denselben Datensatz doppelt in einem Index eingetragen wird (Schritt 4).

Die im Schritt 1 entstandenen Wörter werden weiter wie folgt behandelt:

Schritt 2 : Beseitigung von Dreifach-Kleinbuchstaben

Die einzelnen Wörter werden darauf untersucht, ob Kleinbuchstaben dreifach hintereinander vorkommen, wie in Schifffahrt. Solche Dreiergruppen werden auf Doppelzeichen reduziert. Wenn an der Benutzerschnittstelle mit der Eingabe des Nutzers dasselbe passiert, wird "Schifffahrt" auch dann gefunden, wenn "Schiffahrt" eingegeben wurde und umgekehrt, d.h. dieser Aspekt der Rechtschreibreform hat keine Auswirkung. Durch die Einschränkung auf Kleinbuchstaben bleibt z.B. IEEE erhalten, wegen Schritt 1.1 wird aber aus See-Elefant schließlich Seelefant.
 

Schritt 3 : Zeichen-Umcodierung

Nun müssen noch die Zeichencodes normiert werden, so daß beim Ordnen die Identifizierung gleicher Wörter möglich wird. Diese Operation kann über eine geeignete Tabelle gesteuert werden (siehe Anhang):

a) Grundsätze dabei sind:

  1. Großbuchstaben --> Kleinbuchstaben (dies wird wegen besserer Lesbarkeit empfohlen)
  2. Umlaute --> Grundbuchstaben + e (siehe Umlautgutachten)
  3. Buchstaben mit Diakritika --> Grundbuchstaben
  4. Ligaturen --> die gleichwertigen, üblichen Zweierkombinationen, z.B. ß à ss, æ àae, Thorn à th, d à dj,
  5. türkisches I ohne Punkt à i, polnisches L mit Querstrich à l, dänisches ø à oe
  6. griechische Buchstaben, soweit als solche vorhanden, durch die lateinische Bezeichnung ersetzen (z.B. alpha, beta, gamma, mue) (z.B. "Gammaglobulin" tritt in Titeln sowohl als Wort wie auch mit Gammazeichen auf.)
  7. Satz- und Sonderzeichen einschl. Bindestrich ersatzlos beseitigen (nicht durch Leerzeichen ersetzen!), bis auf + und Komma (z.B. C++ bleibt dann erhalten, aus C*-Algebra wird aber c, algebra und calgebra.
Beim letzten Schritt verschwinden automatisch auch Ballungen von Satz- und Sonderzeichen, wie *** oder $$$. Die Beseitigung des Bindestrichs hat nebenbei den Effekt, schwankende Schreibweisen zu vereinheitlichen.

Empfohlen wird ferner, in einem weiteren Schritt den Teil 3. zu wiederholen, jedoch mit dem Unterschied

b) Umlaute ==> Grundbuchstaben

(sog. "Doppel-Indexierung") um die Irritationen für ausländische Nutzer zu verringern (siehe Umlautgutachten: sog. Doppelindexierung). Es entstehen dann zusätzliche Wörter aus allen Wörtern, die Umlaute enthalten, z.B. konig aus König. Bei den zunehmenden Abfragen aus dem Ausland über WWW oder Z39.50 muß man mit solchen Suchanfragen rechnen.

Schritt 4

Aus der so entstandenen Liste von Wörtern werden doppelt vorkommende sowie Stoppwörter gestrichen. Es wird empfohlen, eine Stoppwortliste so kurz wie möglich zu halten. Manche Systeme kennen ein Entstoppungszeichen. Steht dieses vor einem Stoppwort, so wird es in dem Fall nicht als Stoppwort gewertet. Das zum Entstoppen verwendete Sonderzeichen darf deshalb erst an dieser Stelle, nach der Stoppwortprüfung, entfernt werden.

Beispiele

Die beschriebene Verfahrensweise liefert z.B. aus dem Titel

"Die Kaiser-Wilhelm-Gedächtnis-Kirche von Egon Eiermann in West-Berlin"

die Indexwörter

kaiserwilhelmgedaechtniskirche
kaiser
wilhelm
gedaechtnis
kirche
egon
eiermann
westberlin
west
berlin


und aus "Calcium/Calmodulin-bindende Proteine" entstehen

calciumcalmodulinbindende
calcium
calmodulin
bindende
proteine


Aus dem Beispiel "Le origini dell'urbanistica moderna <dt.>" wird

origini
dellurbanistica
dell (falls kein Stoppwort)
urbanistica
moderna
dt


Und aus "2,5-N,N'-Dicyandiimin-2,5-dihydrothieno<3,2-b>thiophene (DCNTT)" entsteht:

2,5n,ndicyandiimin2,5dihydrothieno3,2bthiophene
dcntt
2,5
n,n
dicyandiimin
dihydrothieno
b
3,2
thiophene


Anmerkung
Die letzten drei erhält man nur, wenn auch die Klammersymbole als Worttrennung behandelt werden (Schritt 1).


Beispiel für eckige Klammern im Wort

Aus dem Titel "D[okto]r Murkes gesammeltes Schweigen" werden diese Einträge:

doktor
murkes
gesammeltes
schweigen
aber nicht: dr. Um auch dieses zu erzielen, muß man im Schritt 1 vor der Beseitigung der Klammern noch die evtl. im Wort vorhandenen Teile in [...] beseitigen. Das empfiehlt sich, weil es sich dabei in aller Regel um Hinzufügungen der Katalogisierung handelt, die der Nutzer wohl eher nicht erwartet.


String-Indexierung

Im Gegensatz zur Wort-Indexierung werden hier komplette Inhalte von Feldern oder Unterfeldern als Ganzes in ein Register eingeordnet.

Ein Stringregister hat seine Bedeutung deutlich mehr als ein Wortregister für das Browsing, nicht so sehr für die Abfrage. Vor allem die sog. Einwort-Titel, aber auch ungenau bekannte Titel mit hochfrequenten Wörtern am Anfang können damit oft sehr leicht gefunden werden, allein über ein Wortregister aber manchmal gar nicht, wenn die Einträge unter dem betr. Wort sehr zahlreich sind.
Wenn ein String-Register zur Abfrage eingesetzt wird, dann wird meistens eine automatische Rechts-Trunkierung ausgeführt. Für das effektive Suchen nach den besagten Einwort-Titeln muss dann aber diese Trunkierung abschaltbar sein.

Grundsatzentscheidung

Für Titel, Körperschaftsnamen, Serientitel können getrennte Register oder auch ein Gesamtregister angelegt werden.

Titel mit körperschaftlichen Ergänzungen

Das einzig sinnvolle Verfahren scheint zu sein, die körperschaftliche Ergänzung schlicht als Verlängerung an den Titel anzuhängen, also unmittelbar mit einem Spatium anzuschließen. Der unspezifische Titel wird dadurch zwanglos zu einem spezifischen (z.B. Report, Jahresbericht, ...)

Titel mit Zusätzen

Zusätze sind nicht selten nichtssagend und dem Suchenden unbekannt, aber keine Software kann erkennen, ob ein solcher oder ein signifikanter Zusatz vorliegt.
Für Titel mit Zusatz gibt es drei grundsätzliche Möglichkeiten:

  1. Nur Hauptteile, d.h. ohne Zusätze indexieren (so wird es in den meisten Katalogen gemacht)
  2. Zusatz mit indexieren (Varianten: 1. "haupttitel : zusatz" oder 2. "haupttitel zusatz")
  3. Beides (Varianten: 1. Beides im selben Register, 2. Zwei getrennte Register)
Von der Lösung b) mit der Variante 2 "haupttitel zusatz" ist abzuraten: Titel wie "Natur : Umwelt und Mensch" verschwinden dann zwischen den sehr vielen mit "natur" beginnenden Titeln. Der Zusatz ist beim Suchen wohl eher selten genau bekannt, manchmal würde er sogar stören, wie z.B. bei "Der Campus : Roman".

Die Variante b.1. hat immerhin den Vorteil, daß man beim Browsing zuerst die Titel ohne Zusatz sieht, dann in einem eigenen Abschnitt diejenigen mit Zusatz, und dann die längeren Titel mit gleichem Anfang.

Nicht unproblematisch ist das Nichtsortierzeichen. Es dient ausdrücklich dazu, neben Artikeln am Anfang auch Teile im Innern von Titeln zu markieren, um sie bei Ordnungsvorgängen ausschließen zu können. (Pica ist hier untypisch: es hat nur ein Zeichen für den Sortierbeginn am Titelanfang. Daher sind Pica-Daten in diesem Punkt mit Daten anderer Verbünde nicht immer kompatibel, sondern nur mit MARC-Daten.)

Sonderproblem mit Nichtsortierwörtern

Es kommen in Titeln zwei logisch verschiedene Situationen vor:

¬Der¬ Campus : Roman

¬486er¬ [Vierhundertsechsundachtziger] und Pentium : Programmierung

Im zweiten Beispiel folgt dem markierten Wort eine Ergänzung in eckigen Klammern. Nach den älteren Gepflogenheiten wurden Zahlen in Sachtiteln als Wörter angesetzt und geordnet, die neueren Regeln verfahren aber umgekehrt: es wird streng nach Vorlage angesetzt und also auch geordnet. Das zwingt dann zu einem etwas komplizierten Sonderverfahren, will man Einheitlichkeit im String-Register erreichen:

Folgt auf ¬ ein Spatium und eine [ , so müssen die zwei vorangehenden ¬-Zeichen beseitigt werden. Die Zusätze in eckigen Klammern werden in jedem Fall beseitigt. Man muß davon ausgehen, daß es sich fast immer tatsächlich um Ergänzungen der Katalogisierung handelt, denn eckige Klammern in der Vorlage sind nach Regelwerk immer schon durch runde oder spitze ersetzt worden. (Man sieht in den Beispielen oben zwar auch eine Ausnahme ([alpha]v[beta]...), die aber einen Erfassungsfehler darstellt!) Würde man mechanisch sowohl ¬...¬ als auch [...] beseitigen, bliebe im Beispiel nur

"und Pentium : Programmierung" übrig, mit Sonderverfahren erhält man aber

"486er und Pentium : Programmierung", wie es der neuen RAK-Ansetzung entspricht.

Alte und neue RAK-Daten können somit per Programm identische Registereinträge liefern!

(Ein leicht programmierbarer und schon getesteter Algorithmus für das Sonderverfahren wird im Anhang vorgestellt.)

Kann jedoch das Sonderverfahren nicht angewendet werden, bleibt nur das einfachere Verfahren, daß man durchweg ¬...¬ beseitigt, aber [...] nicht - was auf die älteren Regeln hinausläuft. Daten nach neueren Regeln würden dann abweichende Einträge liefern, da die Ergänzungen in [...] fehlen.

Programmiertechnisch die einfachste Lösung wäre es, eckig geklammerte Zusätze zu beseitigen, das Nichtsortierzeichen aber ohne Wirkung ersatzlos wegzulassen (es also de facto bedeutungslos werden zu lassen). Das aber würde heißen, daß alle mit Artikel beginnenden Titel auch unter dem Artikel eingeordnet würden. (Beim Suchen müsste dann häufig daran gedacht werden, daß die Vorlagefassung des Titels evtl. mit einem Artikel beginnt oder im Zitat fälschlich ein Artikel angegeben ist.) Nicht nur wäre dies konträr zu aller bisherigen Praxis, es würde auch die in das Markieren des Sortierbeginns investierte Arbeit und Überlegung mit einem Schlag entwerten. Ein so gravierender Schritt müsste auf sorgfältige Abwägung, gründliche Tests und einen breiten Konsens gegründet sein, und dürfte nicht etwa schlichtweg durch Kapitulation vor einem kleinen Programmierproblem ausgelöst werden.

Schritt 0 : Sonderbehandlung für Punkte

Wie beim Wortregister. Siehe aber Schritt 2.

Schritt 1 : Nichtsortierteile beseitigen  (d.h. Anwendung des oben beschriebenen Sonderverfahrens)

Schritt 2 : Worttrenner beseitigen

Gedankenstriche beseitigen, d.h. ersetze die Kombination "Spatium Bindestrich Spatium" durch "Spatium".

Kombination "Komma Spatium" durch "Spatium" ersetzen.

Beseitige ersatzlos die Zeichen  - / ' ( ) < > aus den so entstandenen Strings. (West-Berlin à Westberlin)

Schritt 3 : Beseitigung von Dreifach-Kleinbuchstaben

Wie beim Wortregister. Falls es in den Daten Mehrfach-Leerzeichen gibt, müssen diese auf eins reduziert werden.
(Die meisten Systeme eliminieren solche Leerzeichen schon bei der Erfassung.)

Schritt 4 : Umcodierung

Diese Operation sollte über dieselbe Tabelle gesteuert werden wie beim Wortindex (siehe dort Schritt 3). Wendet man auf die Zusätze die Lösung b) mit Variante 1 an, muß der Doppelpunkt aber erhalten bleiben.

Schritt 5 : Längenbegrenzung

In der Regel hat ein Datenbanksystem eine Längenbegrenzung für Indexeinträge. Das Abschneiden auf diese Länge sollte erst nach der Umcodierung erfolgen, denn der String kann bei deren Durchführung länger oder kürzer werden (Umlautauflösung, Artikel- und Sonderzeichenbeseitigung).

Beispiele: aus den Beispieltiteln (siehe oben) sollten folgende Stringeinträge entstehen:

¬Die¬ Kaiser-Wilhelm-Gedächtnis-Kirche von Egon Eiermann in West-Berlin
 
kaiserwilhelmgedaechtniskirche von egon eiermann in westberlin


Natur - Mensch - Technik
 
     natur mensch technik


Wasser-, Nähr- und Schadstoffdynamik

wasser naehr und schadstoffdynamik


Wasserstoff, die Energie für alle Zeiten
     
     wasserstoff die energie fuer alle zeiten

Kaiser, Reichspräsident und U. S. A. Präsident

kaiser reichspraesident und usa praesident


C++- und Smalltalk-Quellcode  

c++ und smalltalkquellcode


C*-algebras and W*-algebras 

     calgebras and walgebras


C*- und W*-Algebren 

     c and walgebras

Untersuchung der Endzustände µ+µ- und e+e- am Elektron-Positron-Speicherring Doris

 untersuchung der endzustaende mue+mue und e+e am elektronpositronspeicherring doris


Calcium/Calmodulin-bindende Proteine

      calciumcalmodulinbindende proteine


¬Das¬ 8086/8088-Buch
 
     80868088buch


¬Das¬ ¬8086¬ [achtzigsechsundachtzig]-Buch
 
    8086buch


¬007¬ [Null-Null-Sieben]

    007


2,5-N,N'-Dicyandiimin-2,5-dihydrothieno(3,2-b)thiophene (DCNTT)

2,5n,ndicyandiimin2,5dihydrothieno3,2bthiophene dcntt


¬A¬ D. H. Lawrence Handbook

d h lawrence handbook


Who's who in CIA

whos who in cia


Usines d'aujourd'hui

usines daujourdhui


De l'origine des choses

de lorigine des choses


¬Le¬ origini dell'urbanistica moderna <dt.>

origini dellurbanistica moderna dt


Lern-, handlungs- und tätigkeitspsychologische Modelle

lern handlungs und taetigkeitspsychologische modelle


¬Dem¬ Zufall (k)eine Chance!?

zufall keine chance


Von α,β-ungesättigten Ketonen und ihren Oxymen

von alpha,betaungesaettigten ketonen und ihren oxymen

[alpha]v[beta]3-Integrin Inhibitoren durch räumliches Screening
v3integrin inhibitoren durch raeumliches screening
D[okto]r Murkes gesammeltes Schweigen
dr murkes gesammeltes schweigen


Personennamen-Indexierung

Grundsatzentscheidungen

Alle angesetzten Personennamen (Haupt- und Verweisungsformen) sollten, ohne Differenzierung der Funktion der Personen, in einem gemeinsamen Register indexiert sein.
Ergebnis der Ansetzung ist eine Zeichenfolge, die als Ganzes in das Namensregister aufzunehmen ist. Die Ansetzungsregeln schreiben bereits vor, in welcher Weise z.B. Präfixe zu schreiben sind, d.h. die eingegebenen Namensformen haben schon die logisch richtige Form für die Einordnung in ein Namensregister.
Zusätzlich wird empfohlen, Personennamen nach der Methode der Wortindexierung in Bestandteile zu zerlegen und die so entstehenden Wörter ebenfalls zu indexieren. Dadurch wird die Suche nach Vornamen und deren Kombination mit anderen Bestandteilen möglich. Es sollte jedoch ein sichtbares Personennamenregister geben, das nur die vollständigen Personennamen zeigt.
Wenn mit einer Normdatei gearbeitet wird, enthält ein Titelsatz nur die Ansetzungsform eines Namens, die Verweisungsformen stehen im Normsatz. Jede Namensform, ob sie im Titelsatz steht oder in einem Normsatz, sollte in gleicher Weise indexiert werden.
Auf alle Namensregister-Einträge sind die Regeln anzuwenden, die im Schritt 3 für die Wort-Indexierung angegeben sind. Die Doppelindexierung der Umlaute empfiehlt sich auch und gerade für Namen.

Doppelnamen-Behandlung
In Katalogdaten und Namens-Normdaten wurden teilweise, wie früher in Zettelkatalogen, die zweiten Teile von Doppelnamen als Verweisungsformen mit erfasst. Mit einem einfachen Algorithmus können solche Verweisungen jedoch automatisch erzeugt werden, d.h. die gesonderte Erfassung solcher Verweisungsformen ist unnötig.
Entsprechendes gilt für Namen mit Präfixen.

Nummern-Indexierung

Grundsatzentscheidungen

Alle erfassten Nummern sollten in einem gemeinsamen Register indexiert sein. Wahlweise kann es eine Software ermöglichen, eine Suche auf einen bestimmten Nummerntyp einzugrenzen, z.B. die ISBN oder ISSN.

Behandlung der Nummern
Im Nummernregister sollen nur Kleinbuchstaben und Ziffern vorkommen. Das bedeutet, dass alle zu indexierenden Nummern so vorzubehandeln sind, dass alle sonstigen Zeichen, auch Bindestriche und Leerzeichen, ersatzlos wegfallen.




Anh.: Algorithmus zum Sonderverfahren für Nichtsortierzeichen

Voraussetzung für das Funktionieren ist, daß die Nichtsortierzeichen nach dem Schema ¬Der¬ Titel gesetzt sind, nicht nach dem Schema ¬Der ¬Titel, d.h. daß das dem Artikel folgende Leerzeichen NICHT mit eingeschlossen ist, sondern dem zweiten ¬ folgt. Ansonsten können dann innerhalb des Titels mehrere Bestandteile auf diese Weise markiert sein. Vor jedem solchen Bestandteil, also immer vor dem ersten von zwei ¬, muß dann ein Leerzeichen stehen, sonst funktioniert der Algorithmus nicht unbedingt korrekt. Es könnte Ausnahmefälle geben, jedoch sicher äußerst selten. Der Algorithmus verwendet drei Variablen: UZ, BZ und TZ

1. Die noch unbehandelte Zeichenfolge des Titels oder Namens kommt in eine Variable UZ. Die bereinigte Zeichenfolge soll in eine Variable BZ

Schleifenbeginn

2. Der Anfang von UZ bis vor dem ersten " ¬"  (Spatium Nichtsortierzeichen) wird in die Hilfsvariable TZ kopiert

3. Wenn in TZ die Kombination "¬ [" vorkommt: [...] beseitigen, das Zeichen ¬ beseitigen, TZ plus ein Leerzeichen an BZ anhängen

4. Sonst: ¬...¬ UND [...] beseitigen, TZ plus ein Leerzeichen an BZ anhängen

5. Von UZ den Teil hinter " ¬" nach UZ kopieren (UZ wird dadurch kürzer oder leer)

Schleife fortsetzen, wenn noch etwas übrig ist; sonst (d.h. wenn kein " ¬" mehr vorhanden) Ende der Schleife.

BZ ist fertig zur weiteren Bearbeitung (Zeichenumwandlung und Einordnung).

Anmerkung
Der Algorithmus wurde mit allegro-C implementiert und getestet. Es genügte dazu ein 7-zeiliges Unterprogramm in der Indexparameterdatei.



B. Eversberg, 2003-07-14 / 2004-04-02