Richtlinien
zur Indexierung von Online-Katalogen
Entwurf
zusammengestellt von B. Eversberg
13.4.2004
Diese Darstellung hat noch
nicht den Charakter eines Regelwerks, sondern stellt erst einmal bestehende Möglichkeiten
zusammen und versucht, einige Anforderungen zu konkretisieren. Vermutlich
können, wegen der Vielfalt der technischen Realisierungen, keine
vergleichsweise strikten Regeln aufgestellt werden wie in anderen Teilen eines
Katalogisierungs-Regelwerks. Im Interesse der Nutzer sind jedoch Angleichungen
wünschenswert, die über den bisherigen Stand deutlich hinausgehen.
Ein Versuch in dieser Richtung wurde schon beim KOBV unternommen. Dort entstand
2004 ein Papier "Indexierung
von Online-Katalogen", das den KOBV-Teilnehmern als Richtlinie dienen
soll.
Sinn der Richtlinien
Die neuen "Regeln
für die Formalkatalogisierung (RFK)" sollen auch ein Kapitel zur
Indexierung enthalten. Die grundlegenden Überlegungen dazu sind hier dargelegt.
Die traditionellen
Ordnungsregeln in den RAK hatten zum Ziel, die Katalogzettel in eine präzise
festgelegte lineare Abfolge zu bringen, die für den Nutzer logisch
nachvollziehbar war. Dazu waren die Ansetzungsregeln in einer Weise durchdacht,
dass die Ansetzungsformen der Namen und Titel schon weitgehend mechanisch
geordnet werden konnten. Die Ordnungsregeln mussten dann nicht mehr auf
inhaltliche Aspekte Bezug nehmen, sondern konnten die in den "Köpfen"
vorliegenden Zeichenketten mechanisch sortieren und es ergab sich wie von
selbst eine logisch plausible Abfolge.
In Online-Katalogen dagegen
haben die Datensätze intern keine lineare Abfolge. Der Zugriff geschieht in
jedem Fall über Indexdateien sowie Kurzlisten von Teilmengen der
Datenbank. An der Oberfläche mögen aus Sicht des Nutzers große Unterschiede
zwischen den Katalogen bestehen, doch prinzipiell sollten logisch gleiche
Abfragen unabhängig vom System bei gleichen Daten zu gleichen Resultaten führen.
Dazu ist es notwendig, die Struktur der Indexdaten und Kurzlisten zu regeln,
und zwar im selben Sinne wie früher die Anordnung der geköpften Karten: aus den
Ansetzungsformen und anderen Titeldaten sollen wohldefinierte Zugriffskriterien
gebildet werden.
Die Vielfalt der technisch möglichen Konstruktionen kann man nicht bis ins
Kleinste reglementieren, zumal noch jederzeit technische Innovationen eintreten
können. Die "Regeln für die Formalkatalogisierung" müssen zunächst
darauf abzielen, diejenigen Zugriffe zu normieren, die zur Erfüllung der
definierten Aufgaben des Kataloges nötig sind. Darüber hinaus sollen die Regeln
Empfehlungen geben, in welcher Weise mit den Formaldaten weitere wichtige
Zugriffsmöglichkeiten eröffnet werden können, die in konventionellen Katalogen
nicht realisiert werden konnten, wie vor allem der Stichwortzugriff. Einige
Kataloge gehen schon jetzt über das hinaus, was hier beschrieben wird. Es kommt
darauf an, eine gewisse Anzahl von Kriterien zu festzulegen, die von allen
Katalogen weitestgehend gleichwertig realisiert werden sollten.
Register für die
Suche
Anders als im Zettelkatalog mit seiner linearen Abfolge aller Zettel in einem
einzigen "Alphabet" kann es im Online-Katalog mehrere alphanumerisch
geordnete Listen (sog. Zugriffsregister oder kurz Register) geben, die
von der Software automatisch geführt werden. Diese Register müssen sich nicht
auf eine Abbildung der klassischen Zettelabfolge in eine Folge von
Registereinträgen beschränken, sondern aus dem gesamten Datenmaterial der
Titelaufnahmen kann mit geeigneten Algorithmen jede für sinnvoll erachtete Art
von Zugriffsregistern konstruiert werden. Wenn Kataloge vergleichbar sein
sollen, müssen daher die Regeln Vorgaben machen,
Ansetzungs- und Verweisungsformen sowie deskriptive Elemente
können nicht unbedingt ohne jede Veränderung in maschinelle Register überführt
werden, sondern müssen durch ein Programm vorher in spezifischer Weise
vorbehandelt werden.
Vorverarbeitung der
Nutzereingabe
Eine Katalogsoftware sollte die Eingaben des Nutzers formal so vorverarbeiten,
dass sie der Struktur der Register entsprechen. So können unnötige Misserfolge
vermindert werden. Die nachfolgend beschriebenen Verfahren sind deshalb
sinngemäß auch auf die Nutzereingaben anzuwenden. Die Vorverarbeitung der
Eingabe kann darüber hinaus noch weitere Hilfestellungen leisten, so z.B. eine
Eingabe "Vorname Nachname" (Komma fehlt) umwandeln in "Nachname,
Vorname", doch ist hierbei Umsicht nötig, damit nicht die absichtsvolle
Eingabe eines erfahrenen Nutzers verfälscht wird oder undurchschaubare
Resultate herauskommen.
Zugriffsarten
Es ist zweckmäßig, als Minimum folgende Arten von Registern zu unterscheiden:
1. |
Namensregister,
getrennt oder getrennt abfragbar als |
1a. |
Personennamen |
1b. |
Körperschaftsnamen
(siehe 3.) |
1c. |
Namens-Stichwortregister
(d.h. bei Personen: Vornamen und Familiennamen getrennt) |
2. |
Stichwortregister
für die Wörter, aus denen die Titel (einschl. Zusatz) und Körperschaftsnamen bestehen |
3. |
Zeichenfolgenregister
("String"-Register) für die Titel einschl. der Gesamttitel |
4. |
Nummernregister
für Identnummern aller Art |
5. |
Register
für lokale und für nichtbibliographische Kriterien, z.B. Signaturen oder
Geschäftsgangsdaten (nicht Gegenstand der Regeln) |
Ein System kann von jedem
dieser Typen mehrere verschiedene anbieten, z.B. getrennte Wortregister für
Titel-, Körperschafts- und Tagungsstichwörter, oder aber nur je ein
kombiniertes Register für jeden dieser Typen.
Möglich ist ferner ein
Gesamt-Wortregister (sog. "Basic Index" oder
"ALL-Register") mit mehr als nur den Wörtern der Titelfelder. Dazu
können auch die Namen in Wörter zerlegt und es können ausgewählte oder alle
Teile (einschl. Fußnoten) der bibliographischen Beschreibung mit herangezogen
werden.
Kombinierte Register
Ein System kann auch weitere Formen von Registern anbieten, z.B. kombinierte
Name+Titel-Register (sinnvoll z.B. für Komponist+Einheitstitel),
Verlag+Jahr-Register, u.a.m.
Titelstichwörter als Zugriffselemente sind in so gut wie allen
Online-Katalogsystemen zu finden, auch Zugriffe über den Titel als Phrase (oder
wenigstens seinen Anfangsteil) gibt es in sehr vielen Systemen.
Unterschiede bestehen aber in der Art und Weise, wie die Wörter und Titel
aufbereitet werden. Katalogisierungsregeln haben sich bisher nicht mit diesen
Fragen beschäftigt, vielmehr ist es weitgehend den Systementwicklern überlassen
worden, wie sie die Aufgaben verstehen und lösen.
Besonders in virtuellen Katalogen wie dem KVK zeigt es sich, dass Regeln
notwendig sind, denn sonst ist unklar, auf welche Art der Abfrage man sich
verlassen kann oder eben nicht. Diese Ausarbeitung soll einen Ansatz dazu
bieten.
Anm.: Die Richtlinien sind im Prinzip
unabhängig davon, ob das Katalogsystem die Register sichtbar macht und
den Nutzer darin blättern lässt oder nicht. Die Erfahrung zeigt, dass es sehr
hilfreich sein kann, in sichtbaren Registern zu blättern, denn man sieht darin
nicht nur, was wirklich vorhanden ist, sondern auch, was nicht vorhanden
ist - weil es z.B. anders geschrieben wird oder weil es mehr als eine
Schreibweise gibt.
Virtuelle Kataloge haben
keine sichtbaren Register, weil es erstens programmtechnisch sehr schwierig
wäre, Register aus mehreren Katalogen zu einer gemischten Anzeige zu vereinigen
und zweitens, weil die Realisierung in den konkreten Systemen sehr unterschiedlich
aussehen und daher nicht zu einer vereinheitlichten Form zusammengefasst werden
kann, oder weil bei manchen Systemen gar kein für eine Anzeige geeignetes
Register existiert.
Normdaten
Wenn in einem Katalog Normdaten konsequent zum Einsatz kommen, sind getrennte
Normdaten-Register sinnvoll. Das Suchen und Blättern in den normierten Namen
und Titeln sowie den Verweisungsformen kann im ersten Schritt zu der
maßgeblichen Ansetzungsform eines Namens oder Titels und im zweiten Schritt zu
den damit verknüpften Eintragungen hinführen. Beide Schritte können im
Normalfall automatisch hintereinander ablaufen, so dass man bei Eingabe einer
Verweisungsform automatisch die mit dem zugehörigen Normsatz verknüpften
Einträge erhält. Normdaten sollten, wie Titeldaten, in mehrfacher Weise
indexiert werden, um die Suche über Wörter und Wortkombinationen wie auch über
Phrasen zu gestatten. Auch für Normdaten ist ein sichtbares Register zum
Blättern unbedingt notwendig, um das Auffinden bei nicht genau bekannter Schreibweise
zu erleichtern.
Registeranzeige bei
ergebnisloser Suche
Wenn eine Suchanfrage ergebnislos ist, soll das System, so weit wie möglich,
einen passenden Registerausschnitt anzeigen, d.h. dem Nutzer einen Einblick
geben in die Umgebung des nicht gefundenen Suchbegriffs. Damit können viele
Fehleingaben abgefangen und Nutzer zwanglos zur richtigen Schreibweise
hingeführt werden. Dieser Effekt ergab sich beim Zettelkatalog aus der Natur
der Sache ganz von selbst und wurde durch Leitkarten noch unterstützt. Hinter
diesem Komfort soll ein Online-Katalog nicht zurückbleiben.
Kurzlisten sollen
Gefundenes überschaubar machen
Typisch für Online-Kataloge und völlig neu im Vergleich zu Zettelkatalogen ist
es, dass dem Nutzer Ergebnismengen vorgelegt werden. Das sind Teilmengen
des Katalogs, bestehend aus den Datensätzen, die der Anfrage des Nutzers
entsprechen. Ergebnismengen müssen zunächst in möglichst knapper Form (und
nicht etwa Titel für Titel einzeln hintereinander) und in sinnvoller Ordnung
angezeigt werden, damit der Nutzer sich zunächst einen Überblick verschaffen
kann, ob seine Anfrage erfolgreich war, und damit er dann den oder die Titel
auswählen kann, die seinen Interessen am meisten entsprechen. Die Kurzanzeige
der Ergebnismenge muss folglich diejenigen Elemente enthalten, die
erfahrungsgemäß für Überblick und Auswahl am besten geeignet sind. Die
Anordnung sollte zumindest wahlweise eine alphabetische nach Verfasser und/oder
Titel oder eine umgekehrt chronologische sein (d.h. neueste Titel zuerst). Ein
System kann darüber hinaus auch noch andere Anordnungen anbieten. Wenn es um
die Anzeige der Werke eines Verfassers geht, sollte das System zu jedem Werk
die vorhandenen Ausgaben zusammenfassen können - dies setzt die Verwendung von
Einheitstiteln voraus.
Sonderfall einer Ergebnismenge: Bei der Anzeige von Gesamtwerken muss es
eine zusammenfassende Anzeige der zugehörigen Teile in einer logisch sinnvollen
Reihenfolge geben: mehrbändige Werke und Serien sollen also in der Folge der
Bandnummern angezeigt werden.
Einschränkung von
Suchergebnissen
Früher manchmal "Sekundäraspekte" oder ähnlich genannt, weil man
damit nicht direkt suchen konnte, bieten sich Kriterien wie Erscheinungsjahr,
Sprache, Materialart und Dokumenttyp dazu an, große Ergebnismengen zu
verkleinern Als Minimum kann wohl nur das Erscheinungsjahr erwartet werden,
andere Kriterien sind selten konsistent erfasst worden.
Phrasensuche
Darunter versteht man im Allgemeinen die Möglichkeit, nach dem
Vorhandensein von exakten Wortfolgen suchen zu können, manchmal auch so, dass
zwischen zwei vorgegebenen Wörtern in den Suchergebnissen noch eine
bestimmbare Anzahl oder aber beliebig viele andere Wörter stehen können.
Hilfreich sind solche Verfahren, wenn dem Nutzer prägnante Wortfolgen aus dem
Innern eines Titels oder Namens bekannt sind. Programmtechnisch realisiert
werden solche Funktionen z.B. auf der Basis von Wortregistern, hängen also von
deren Qualität ab, wobei jeder Eintrag in der Registerdatei eine Zahl mit sich
führt, die angibt, an welcher Position der Wortfolge des Katalogisats dieses
Wort steht. Überlegungen zu dem Thema stehen in einem eigenen
Papier.
Trunkierung und Maskierung
In der Regel bieten Katalogsysteme bei allen Suchkriterien die
Rechtstrunkierung an. Darüber hinaus kann man bei manchen Systemen einzelne
Zeichen innerhalb eines Suchbegriffs maskieren, wenn die Schreibweise an der
Stelle nicht exakt bekannt ist, oder um Wörter mit schwankender Schreibweise
zusammenzufassen.
Grundsatzentscheidungen
Zuerst ist genau festzulegen, welche
Felder und evtl. Teilfelder wortweise zu indexieren sind. Als Minimum gelten
alle Titelfelder einschließlich der Zusätze und alle Körperschaftsnamen.
Hinzukommen können Serientitel und sodann Personennamen, um auch die Suche nach
Vornamen zu ermöglichen.
Die Zerlegung der Felder in
Wörter (allgemeiner: ununterbrochene Zeichenfolgen) und deren Aufbereitung soll
für alle Wortregister nach demselben Verfahren erfolgen.
Verfahren zur
Wort-Indexierung
Das Indexieren von
Zeichenketten (Strings) wie Titeln oder Namen auf Wortebene setzt zunächst
einmal voraus, daß diese Zeichenketten in Wörter zerlegt werden. Sodann ist zu
regeln, wie bei der Indexierung Sonderbuchstaben (Umlaute, Ligaturen),
Akzentbuchstaben, sowie Interpunktions- und Sonderzeichen zu behandeln sind.
Beispiele von Titeln zur
Illustration der Detailprobleme:
Die Kaiser-Wilhelm-Gedächtnis-Kirche von Egon Eiermann in
West-Berlin
Natur – Mensch
– Technik
Wasser-, Nähr- und
Schadstoffdynamik
Lern-, handlungs- und
tätigkeitspsychologische Modelle
Wasserstoff, die Energie
für alle Zeiten
Kaiser, Reichspräsident
und U. S. A. Präsident
C++- und
Smalltalk-Quellcode
C*-algebras and
W*-algebras
C*- und W*-Algebren
Untersuchung der
Endzustände µ+µ- und e+e- am Elektron-Positron-Speicherring Doris
Calcium/Calmodulin-bindende
Proteine
Das 8086/8088-Buch
2,5-N,N'-Dicyandiimin-2,5-dihydrothieno(3,2-b)thiophene
(DCNTT)
A D. H. Lawrence Handbook
Who's who in CIA
Usines d'aujourd'hui
De l'origine des choses
Le origini
dell'urbanistica moderna <dt.>
Von
α,β-ungesättigten Ketonen und ihren Oxymen
[alpha]v[beta]3-Integrin
Inhibitoren durch räumliches Screening
Dem Zufall (k)eine
Chance!?
D[okto]r Murkes
gesammeltes Schweigen
Es muß ein
Algorithmus aufgestellt werden, der daraus Registerwörter (= Indexeinträge) für
ein konsistentes und den anzunehmenden Benutzererwartungen entsprechendes
Retrieval bildet.
Der nachfolgende Vorschlag
versucht eine knappe und präzise Formulierung. Ob die einzelnen Schritte
tatsächlich so programmiert werden können, richtet sich nach den Möglichkeiten
eines Systems. Eine Veränderung der Reihenfolge dieser Schritte kann jedoch
unterschiedliche Ergebnisse zur Folge haben!
Schritt 0 :
Sonderbehandlung für Punkte und Teilfeld-Codes
Ersetze Punkt vor Ziffer durch
Komma, sonst durch Leerzeichen. Dadurch wird das manchmal fehlende Leerzeichen
nach Abkürzungspunkten ergänzt, Dezimalzahlen bleiben aber erhalten und werden
vereinheitlicht, denn in diesen können sowohl Komma wie Punkt auftreten.
Mögliche Verfeinerung: folgt dem Punkt ein Buchstabe und ein
weiterer Punkt, dann ersatzlose Beseitigung. (Aus U.S.A. wird dann USA, doch U. S. A. wird zu U S A ). Nach den RAK-Abkürzungsregeln
(§202) sollten Initialfolgen und Akronyme ohne Punkte, aber jedenfalls ohne
Spatien angesetzt werden, das ist jedoch in den Daten nicht konsequent so
anzutreffen.
Relevant bei MARC-Daten:
Ersetze Teilfeld-Codes, falls vorhanden (z.B. $b) durch Leerzeichen (d.h. aus
"$b" wird " "). Teilfelder, die nicht zu indexieren sind,
müssen vorher enrtfernt werden.
Schritt 1 : Zerlegung der
Zeichenketten in Wörter
Verfeinerung:
Beseitige innerhalb
des Wortes Einschlüsse in [...]. (Siehe Beispiel am Ende)
Beseitige dann die
Zeichen - / ' ( ) < > [ ] aus den so entstandenen "Wörtern". (West-Berlin ==>
Westberlin)
Bei Titeln ohne Sonderzeichen sind die Ergebnisse der Schritte 1.
und 2. gleich. Es versteht sich aber ohnehin, daß kein Wort für denselben
Datensatz doppelt in einem Index eingetragen wird (Schritt 4).
Schritt 2 :
Zeichen-Umcodierung
Nun müssen noch die
Zeichencodes normiert werden, so daß beim Ordnen die Identifizierung gleicher
Wörter möglich wird. Diese Operation kann über eine geeignete Tabelle gesteuert
werden (siehe Anhang):
a) Grundsätze dabei sind:
Beim letzten
Schritt verschwinden automatisch auch Ballungen von Satz- und Sonderzeichen,
wie *** oder $$$. Die Beseitigung des Bindestrichs hat nebenbei den Effekt,
schwankende Schreibweisen zu vereinheitlichen.
Empfohlen wird ferner, in einem weiteren Schritt
den Teil 3. zu wiederholen, jedoch mit dem Unterschied
b) Umlaute ==>
Grundbuchstaben
(sog.
"Doppel-Indexierung") um die Irritationen für ausländische Nutzer zu
verringern (siehe Umlautgutachten:
sog. Doppelindexierung). Es entstehen dann zusätzliche Wörter aus allen
Wörtern, die Umlaute enthalten, z.B. konig aus König. Bei den zunehmenden
Abfragen aus dem Ausland über WWW oder Z39.50 muß man mit solchen Suchanfragen
rechnen.
Schritt 3
Aus der so entstandenen Liste
von Wörtern werden doppelt vorkommende sowie Stoppwörter gestrichen. Es wird
empfohlen, eine Stoppwortliste so kurz wie möglich zu halten. Manche Systeme
kennen ein Entstoppungszeichen. Steht dieses vor einem Stoppwort, so
wird es in dem Fall nicht als Stoppwort gewertet. Das zum Entstoppen verwendete
Sonderzeichen darf deshalb erst an dieser Stelle, nach der Stoppwortprüfung,
entfernt werden.
Beispiele
Die beschriebene
Verfahrensweise liefert z.B. aus dem Titel
"Die
Kaiser-Wilhelm-Gedächtnis-Kirche von Egon Eiermann in West-Berlin"
die Indexwörter
kaiserwilhelmgedaechtniskirche
kaiser
wilhelm
gedaechtnis
kirche
egon
eiermann
westberlin
west
berlin
und aus "Calcium/Calmodulin-bindende
Proteine"
entstehen
calciumcalmodulinbindende
calcium
calmodulin
bindende
proteine
Aus dem Beispiel "Le origini
dell'urbanistica moderna <dt.>" wird
origini
dellurbanistica
dell (falls kein Stoppwort)
urbanistica
moderna
dt
Und aus "2,5-N,N'-Dicyandiimin-2,5-dihydrothieno<3,2-b>thiophene
(DCNTT)"
entsteht:
2,5n,ndicyandiimin2,5dihydrothieno3,2bthiophene
dcntt
2,5
n,n
dicyandiimin
dihydrothieno
b
3,2
thiophene
Anmerkung
Die letzten drei erhält man nur, wenn auch die Klammersymbole als Worttrennung
behandelt werden (Schritt 1).
Beispiel für eckige Klammern im Wort
Aus dem Titel
"D[okto]r Murkes gesammeltes Schweigen" werden diese Einträge:
doktor
murkes
gesammeltes
schweigen
aber nicht: dr. Um auch dieses zu erzielen, muß man
im Schritt 1 vor der Beseitigung der Klammern noch die evtl. im Wort
vorhandenen Teile in [...] beseitigen. Das empfiehlt sich, weil es sich dabei
in aller Regel um Hinzufügungen der Katalogisierung handelt, die der Nutzer
wohl eher nicht erwartet.
Im Gegensatz zur
Wort-Indexierung werden hier komplette Inhalte von Feldern oder Unterfeldern
als Ganzes in ein Register eingeordnet.
Ein Stringregister hat seine
Bedeutung deutlich mehr als ein Wortregister für das Browsing, nicht so sehr
für die Abfrage. Vor allem die sog. Einwort-Titel, aber auch ungenau bekannte
Titel mit hochfrequenten Wörtern am Anfang können damit oft sehr leicht
gefunden werden, allein über ein Wortregister aber manchmal gar nicht, wenn die
Einträge unter dem betr. Wort sehr zahlreich sind.
Wenn ein String-Register zur Abfrage eingesetzt wird, dann wird meistens
eine automatische Rechts-Trunkierung ausgeführt. Für das effektive Suchen nach
den besagten Einwort-Titeln muss dann aber diese Trunkierung abschaltbar sein.
Grundsatzentscheidung
Für Titel, Körperschaftsnamen,
Serientitel können getrennte Register oder auch ein Gesamtregister angelegt
werden.
Titel mit
körperschaftlichen Ergänzungen
Das einzig sinnvolle Verfahren
scheint zu sein, die körperschaftliche Ergänzung schlicht als Verlängerung an
den Titel anzuhängen, also unmittelbar mit einem Spatium anzuschließen. Der
unspezifische Titel wird dadurch zwanglos zu einem spezifischen (z.B. Report,
Jahresbericht, ...)
Titel mit Zusätzen
Zusätze sind nicht selten
nichtssagend und dem Suchenden unbekannt, aber keine Software kann erkennen, ob
ein solcher oder ein signifikanter Zusatz vorliegt.
Für Titel mit Zusatz gibt
es drei grundsätzliche Möglichkeiten:
Von der Lösung
b) mit der Variante 2 "haupttitel zusatz" ist abzuraten: Titel wie
"Natur : Umwelt und Mensch" verschwinden dann zwischen den sehr
vielen mit "natur" beginnenden Titeln. Der Zusatz ist beim Suchen
wohl eher selten genau bekannt, manchmal würde er sogar stören, wie z.B. bei
"Der Campus : Roman".
Die Variante b.1. hat immerhin
den Vorteil, daß man beim Browsing zuerst die Titel ohne Zusatz sieht, dann in
einem eigenen Abschnitt diejenigen mit Zusatz, und dann die längeren Titel mit
gleichem Anfang.
Nicht unproblematisch ist das
Nichtsortierzeichen. Es dient ausdrücklich dazu, neben Artikeln am Anfang auch
Teile im Innern von Titeln zu markieren, um sie bei Ordnungsvorgängen
ausschließen zu können. (Pica ist hier untypisch: es hat nur ein Zeichen für
den Sortierbeginn am Titelanfang. Daher sind Pica-Daten in diesem Punkt mit
Daten anderer Verbünde nicht immer kompatibel, sondern nur mit MARC-Daten.)
Sonderproblem mit
Nichtsortierwörtern
Es kommen in Titeln zwei
logisch verschiedene Situationen vor:
¬Der¬
Campus : Roman
¬486er¬
[Vierhundertsechsundachtziger] und Pentium : Programmierung
Im zweiten Beispiel folgt dem
markierten Wort eine Ergänzung in eckigen Klammern. Nach den älteren
Gepflogenheiten wurden Zahlen in Sachtiteln als Wörter angesetzt und geordnet,
die neueren Regeln verfahren aber umgekehrt: es wird streng nach Vorlage angesetzt
und also auch geordnet. Das zwingt dann zu einem etwas komplizierten Sonderverfahren,
will man Einheitlichkeit im String-Register erreichen:
Folgt auf ¬ ein Spatium und
eine [ , so müssen die zwei vorangehenden ¬-Zeichen beseitigt werden. Die
Zusätze in eckigen Klammern werden in jedem Fall beseitigt. Man muß
davon ausgehen, daß es sich fast immer tatsächlich um Ergänzungen der
Katalogisierung handelt, denn eckige Klammern in der Vorlage sind nach
Regelwerk immer schon durch runde oder spitze ersetzt worden. (Man sieht in den
Beispielen oben zwar auch eine Ausnahme ([alpha]v[beta]...), die aber einen
Erfassungsfehler darstellt!) Würde man mechanisch sowohl ¬...¬ als auch [...]
beseitigen, bliebe im Beispiel nur
"und Pentium :
Programmierung" übrig, mit Sonderverfahren erhält man aber
"486er und Pentium :
Programmierung", wie es der neuen RAK-Ansetzung entspricht.
Alte und neue RAK-Daten können
somit per Programm identische Registereinträge liefern!
(Ein leicht programmierbarer
und schon getesteter Algorithmus für das Sonderverfahren wird im Anhang
vorgestellt.)
Kann jedoch das
Sonderverfahren nicht angewendet werden, bleibt nur das einfachere Verfahren,
daß man durchweg ¬...¬ beseitigt, aber [...] nicht - was auf die älteren Regeln
hinausläuft. Daten nach neueren Regeln würden dann abweichende Einträge
liefern, da die Ergänzungen in [...] fehlen.
Programmiertechnisch die
einfachste Lösung wäre es, eckig geklammerte Zusätze zu beseitigen, das
Nichtsortierzeichen aber ohne Wirkung ersatzlos wegzulassen (es also de facto
bedeutungslos werden zu lassen). Das aber würde heißen, daß alle mit Artikel
beginnenden Titel auch unter dem Artikel eingeordnet würden. (Beim Suchen
müsste dann häufig daran gedacht werden, daß die Vorlagefassung des Titels
evtl. mit einem Artikel beginnt oder im Zitat fälschlich ein Artikel angegeben
ist.) Nicht nur wäre dies konträr zu aller bisherigen Praxis, es würde auch die
in das Markieren des Sortierbeginns investierte Arbeit und Überlegung mit einem
Schlag entwerten. Ein so gravierender Schritt müsste auf sorgfältige Abwägung,
gründliche Tests und einen breiten Konsens gegründet sein, und dürfte nicht
etwa schlichtweg durch Kapitulation vor einem kleinen Programmierproblem
ausgelöst werden.
Schritt 0
: Sonderbehandlung für Punkte
Wie beim Wortregister. Siehe
aber Schritt 2.
Schritt 1
: Nichtsortierteile beseitigen (d.h. Anwendung des oben beschriebenen Sonderverfahrens)
Schritt 2
: Worttrenner beseitigen
Gedankenstriche beseitigen,
d.h. ersetze die Kombination "Spatium Bindestrich Spatium" durch
"Spatium".
Kombination "Komma
Spatium" durch "Spatium" ersetzen.
Beseitige ersatzlos die
Zeichen - / ' ( ) < > aus den so entstandenen Strings. (West-Berlin
à Westberlin)
Schritt 3
: Umcodierung
Diese Operation sollte über
dieselbe Tabelle gesteuert werden wie beim Wortindex (siehe dort Schritt 3).
Wendet man auf die Zusätze die Lösung b) mit Variante 1 an, muß der Doppelpunkt
aber erhalten bleiben.
Schritt 4
: Längenbegrenzung
In der Regel hat ein Datenbanksystem
eine Längenbegrenzung für Indexeinträge. Das Abschneiden auf diese Länge sollte
erst nach der Umcodierung erfolgen, denn der String kann bei deren Durchführung
länger oder kürzer werden (Umlautauflösung, Artikel- und
Sonderzeichenbeseitigung).
Beispiele: aus den Beispieltiteln (siehe oben)
sollten folgende Stringeinträge entstehen:
¬Die¬ Kaiser-Wilhelm-Gedächtnis-Kirche von Egon Eiermann in
West-Berlin
kaiserwilhelmgedaechtniskirche von egon eiermann in westberlin
Natur - Mensch - Technik
natur mensch technik
Wasser-, Nähr- und
Schadstoffdynamik
wasser naehr und schadstoffdynamik
Wasserstoff, die Energie
für alle Zeiten
wasserstoff die energie fuer alle zeiten
Kaiser,
Reichspräsident und U. S. A. Präsident
kaiser reichspraesident und usa praesident
C++- und
Smalltalk-Quellcode
c++ und smalltalkquellcode
C*-algebras and
W*-algebras
calgebras and walgebras
C*- und W*-Algebren
c and walgebras
Untersuchung
der Endzustände µ+µ- und e+e- am Elektron-Positron-Speicherring Doris
untersuchung der endzustaende mue+mue und e+e am
elektronpositronspeicherring doris
Calcium/Calmodulin-bindende
Proteine
calciumcalmodulinbindende proteine
¬Das¬ 8086/8088-Buch
80868088buch
¬Das¬ ¬8086¬ [achtzigsechsundachtzig]-Buch
8086buch
¬007¬ [Null-Null-Sieben]
007
2,5-N,N'-Dicyandiimin-2,5-dihydrothieno(3,2-b)thiophene
(DCNTT)
2,5n,ndicyandiimin2,5dihydrothieno3,2bthiophene
dcntt
¬A¬ D. H. Lawrence Handbook
d h lawrence
handbook
Who's who in CIA
whos who in cia
Usines d'aujourd'hui
usines daujourdhui
De l'origine des choses
de lorigine des choses
¬Le¬ origini
dell'urbanistica moderna <dt.>
origini dellurbanistica moderna dt
Lern-, handlungs- und
tätigkeitspsychologische Modelle
lern handlungs und taetigkeitspsychologische modelle
¬Dem¬ Zufall (k)eine
Chance!?
zufall keine chance
Von α,β-ungesättigten
Ketonen und ihren Oxymen
von alpha,betaungesaettigten ketonen und ihren oxymen
[alpha]v[beta]3-Integrin Inhibitoren durch räumliches Screeningv3integrin inhibitoren durch raeumliches screening
D[okto]r Murkes gesammeltes Schweigen
dr murkes gesammeltes schweigen
Personennamen-Indexierung
Grundsatzentscheidungen
Alle angesetzten Personennamen
(Haupt- und Verweisungsformen) sollten, ohne Differenzierung der Funktion der
Personen, in einem gemeinsamen Register indexiert sein.
Ergebnis der Ansetzung ist eine Zeichenfolge, die als Ganzes in das
Namensregister aufzunehmen ist. Die Ansetzungsregeln schreiben bereits vor, in
welcher Weise z.B. Präfixe zu schreiben sind, d.h. die eingegebenen
Namensformen haben schon die logisch richtige Form für die Einordnung in ein
Namensregister.
Zusätzlich wird empfohlen, Personennamen nach der Methode der Wortindexierung
in Bestandteile zu zerlegen und die so entstehenden Wörter ebenfalls zu
indexieren. Dadurch wird die Suche nach Vornamen und deren Kombination mit
anderen Bestandteilen möglich. Es sollte jedoch ein sichtbares
Personennamenregister geben, das nur die vollständigen Personennamen zeigt.
Wenn mit einer Normdatei gearbeitet wird, enthält ein Titelsatz nur die
Ansetzungsform eines Namens, die Verweisungsformen stehen im Normsatz. Jede
Namensform, ob sie im Titelsatz steht oder in einem Normsatz, sollte in
gleicher Weise indexiert werden.
Auf alle Namensregister-Einträge sind die Regeln anzuwenden, die im Schritt 3
für die Wort-Indexierung angegeben sind. Die Doppelindexierung der Umlaute
empfiehlt sich auch und gerade für Namen.
Doppelnamen-Behandlung
In Katalogdaten und
Namens-Normdaten wurden teilweise, wie früher in Zettelkatalogen, die zweiten
Teile von Doppelnamen als Verweisungsformen mit erfasst. Mit einem einfachen
Algorithmus können solche Verweisungen jedoch automatisch erzeugt werden, d.h.
die gesonderte Erfassung solcher Verweisungsformen ist unnötig.
Entsprechendes gilt für Namen mit Präfixen.
Grundsatzentscheidungen
Alle erfassten Nummern sollten in einem gemeinsamen Register
indexiert sein. Wahlweise kann es eine Software ermöglichen, eine Suche auf
einen bestimmten Nummerntyp einzugrenzen, z.B. die ISBN oder ISSN.
Behandlung der Nummern
Im Nummernregister sollen nur Kleinbuchstaben und Ziffern vorkommen. Das
bedeutet, dass alle zu indexierenden Nummern so vorzubehandeln sind, dass alle
sonstigen Zeichen, auch Bindestriche und Leerzeichen, ersatzlos wegfallen.
Anh.: Algorithmus zum
Sonderverfahren für Nichtsortierzeichen
Voraussetzung für das
Funktionieren ist, daß die Nichtsortierzeichen nach dem Schema ¬Der¬ Titel gesetzt
sind, nicht nach dem Schema ¬Der ¬Titel, d.h. daß das dem Artikel folgende
Leerzeichen NICHT mit eingeschlossen ist, sondern dem zweiten ¬ folgt.
Ansonsten können dann innerhalb des Titels mehrere Bestandteile auf diese Weise
markiert sein. Vor jedem solchen Bestandteil, also immer vor dem ersten von
zwei ¬, muß dann ein Leerzeichen stehen, sonst funktioniert der Algorithmus
nicht unbedingt korrekt. Es könnte Ausnahmefälle geben, jedoch sicher äußerst
selten. Der Algorithmus verwendet drei Variablen: UZ, BZ und TZ
1. Die noch unbehandelte
Zeichenfolge des Titels oder Namens kommt in eine Variable UZ. Die
bereinigte Zeichenfolge soll in eine Variable BZ
Schleifenbeginn
2. Der Anfang von UZ
bis vor dem ersten " ¬" (Spatium Nichtsortierzeichen) wird in
die Hilfsvariable TZ kopiert
3. Wenn in TZ die
Kombination "¬ [" vorkommt: [...] beseitigen, das Zeichen ¬
beseitigen, TZ plus ein Leerzeichen an BZ anhängen
4. Sonst: ¬...¬ UND [...]
beseitigen, TZ plus ein Leerzeichen an BZ anhängen
5. Von UZ den Teil
hinter " ¬" nach UZ kopieren (UZ wird dadurch kürzer
oder leer)
Schleife fortsetzen, wenn noch etwas übrig ist;
sonst (d.h. wenn kein " ¬" mehr vorhanden) Ende der Schleife.
BZ ist fertig zur weiteren Bearbeitung
(Zeichenumwandlung und Einordnung).
Anmerkung
Der Algorithmus wurde mit allegro-C implementiert und getestet.
Es genügte dazu ein 7-zeiliges Unterprogramm in der Indexparameterdatei.
B.
Eversberg, 2003-07-14 / 2004-04-13