Bernhard Eversberg, UB Braunschweig
Was ist ein guter Katalog? |
Nichts ist so praktisch wie eine gute Theorie. Das ist banal, denn aus einer guten Theorie sollten immer alle Aussagen, die man in der Praxis braucht, auf möglichst einfache Weise abzuleiten sein. Und eben das empfindet man als praktisch.
Aber eine Theorie zum Bibliothekskatalog oder zur Katalogisierung? Braucht man das wirklich? So wird jeder überrascht bis amüsiert fragen, der damit noch nie konfrontiert wurde.
Wer Internet-Suchmaschinen benutzt und
von deren vollautomatischem Funktionieren weiß, neigt erst
recht dazu, jeden praktischen und theoretischen Aufwand für
Kataloge
skeptisch zu betrachten und Kataloge als eher altmodische Instrumente
zu anzusehen. Allerdings steckt auch im Kern des Erfolgs
einer
guten Suchmaschine immer eine gute Theorie, nur hat sie nicht unbedingt
viel Ähnlichkeit mit einer Katalogtheorie. Und sie wird mindestens
teilweise geheimgehalten, wenn es sich um eine kommerzielle (durch
Werbung finanzierte) Suchmaschine handelt.
Aber ist die Aufgabenstellung nicht dieselbe? Kann es, sollte es
zwischen beiden
Welten eine Annäherung geben? Darf es überhaupt Unterschiede
geben?
Hinweis: Bibliothekskataloge
haben zwei Aspekte: den formalen und den sachlichen. Entsprechend gibt
es zwei Arbeitsbereiche mit ganz verschiedenen Problemen. Dazu gibt es
zwei einführende Darstellungen:
Wie katalogisiert man ein Buch? Ganz kurze RAK-Einführung | |
Eine Aufgabe mit vielen Facetten : Die Sachliche Erschließung |
Katalogisieren? Besonders schwer kann das doch nicht sein | |
Eine seltene Sache : Erfolg bei der thematischen Katalogsuche |
Was haben Bibliothek und Internet gemeinsam?
Beide bieten Zugänge zu Sammlungen von Aufzeichnungen. Die schwer zu definierenden, uferlosen Begriffe "Information" und "Wissen" braucht man dabei nicht zu verwenden. Ob es eine "Informationsgesellschaft" gibt, oder eine "Wissensgesellschaft", ob alles Information ist oder gar Wissen, was in Web-Texten steht oder zwischen Buchdeckeln, das sei dahingestellt. Die "Pisa-Studie" hat daran erinnert: vor dem Wissen kommt das Lernen. "Was man schwarz auf weiß besitzt", das ist noch kein Wissen, sondern dazu wird es erst durch Lesen und Verstehen. Wir leben in einer Lerngesellschaft, niemand wird das bezweifeln, und Aufzeichnungen haben für das Lernen eine zentrale Bedeutung. Man lernt aus direkter Unterweisung von Mensch zu Mensch, durch eigenes Tun, durch Beobachtung, oder eben durch das Studium (das verstehende Lesen) von Aufzeichnungen.
Meistens aber gilt es, die jeweils
geeigneten Aufzeichnungen erst einmal zu finden.
Millionen von
Menschen
haben über Jahrtausende ihre Erfahrungen, Erkenntnisse,
Erinnerungen und
Eingebungen
aufgezeichnet. Als es bei den Griechen anfing, sah Platon im
schriftlichen
Aufzeichnen ein Symptom des Niedergangs: der Mensch brauchte sein
Gedächtnis
nicht mehr zu üben, weil er nun alles aufschreiben konnte. Statt
sich
aber nur Notizen für den Eigengebrauch zu machen, nutzte jeder
sogleich auch die Notizen anderer. Sammlungen
entstanden,
Bibliotheken. Wo mehr als ein paar hundert Aufzeichnungen sich
anhäufen,
wird man nicht mehr froh, bevor man ein Ordnungssystem erfindet.
Wie entstand das Katalogisieren?
Hat man mehr als einige tausend Aufzeichnungen, wird das physische Ordnen, nach welchem System auch immer, problematisch. Man braucht Suchhilfsmittel: Das sind sekundäre Aufzeichnungen (Meta-Aufzeichnungen), aus denen zu ersehen ist, wo sich eine bestimmte Aufzeichnung in der Sammlung befindet. Das Katalogisieren wird geboren: Es verlagert das Ordnen vom Regal auf das Papier, in Karteikästen und heute in Datenbanken. Wenn das aber nicht mit Hilfe einer praktikablen Theorie geschieht, ist nicht viel zu gewinnen.
Hat man Millionen, wird allein schon
das
Erstellen der Suchhilfsmittel zu einem beträchtlichen Aufwand.
Kein
Wunder, wenn man heute alles daransetzt, Suchhilfsmittel für
digital
vorliegende
Aufzeichnungen vollautomatisch zu erstellen. Das Wort "Suchmaschine"
suggeriert
allerdings fälschlich, ein Automat suche da direkt in den
Aufzeichnungen. Gesucht wird in besonders aufbereiteten Hilfsdateien,
die eigens
dafür angelegt werden. Das kann man nicht irgendwie
machen,
sondern nur mit System, und ein System ist eine Theorie.
Inhalte von Bibliotheken und Internet
Bibliotheken und das Internet, als
Gesamtheit
betrachtet, umfassen nichts anderes als die gesammelten intellektuellen
und künstlerischen Aufzeichnungen der Menschheit, soweit noch
erhalten,
aus allen Zeiten, allen Ländern und Kulturen, in allen
Schriftsprachen
und zu allen Themen, von allen Individuen, die etwas zu sagen hatten.
Der
Umfang und die Komplexität übersteigen das
Vorstellungsvermögen unbefangener Nutzer.
Die Erwartung ist naiv, das Navigieren in diesem multidimensionalen
Universum
könne ganz einfach sein oder gemacht werden. Man kann versuchen,
die
Beschreibung
der Welt zu vereinfachen, aber die Welt wird dadurch nicht
einfacher als sie ist.
Ein Katalog will beim Auffinden und
Zurechtfinden
helfen, und im Internet wollen Suchmaschinen dasselbe tun. Die Frage
ist:
in welcher Weise, mit welchen Grundsätzen und Methoden, nach
welchen
Theorien können oder sollten sie arbeiten, damit möglichst
vielen
Suchenden möglichst oft und möglichst wirkungsvoll geholfen
werden
kann. Keine einzelne Methodik kann allen Suchenden
bei
allen Fragen helfen. Das dürfte jedem klar sein, der
schon
einmal Antworten auf mehr als eine Frage gesucht hat.
Bücher oder Internet - Geschmackssache?
Es gibt kein Entweder-Oder zwischen
Internet und Bibliothek, was allerdings nich tjedem mehr unmittelbar
einleuchtet. Nur der vereinigte
Inhalt von beiden stellt das gesamte Universum des aufgezeichneten
Wissens dar - erwartet wird daher intuitiv, in beiden auf gleiche Weise
suchen zu können. Bibliothekskataloge im Internet
sind
aber
dazu noch nicht die Lösung, und seien sie noch so komfortabel,
denn
die Kataloge bieten nur Hinweise, nicht die Publikationen selbst, die
nur
auf Papier oder in Mikroform existieren. Diese in nennenswertem Umfang
zu digitalisieren und im Volltext suchbar zu machen, bleibt vorerst
Utopie:
es sind viele Millionen und noch immer kommt laufend vieles hinzu, was
nirgends im Netz steht. Kataloge bieten nur knappe,
standardisierte
Beschreibungen der Dokumente (sog. "Metadaten"), das Internet bietet
dagegen viele Inhalte
als vollständige Dokumente, auf Knopfdruck abruf- und einsehbar,
jedes Wort suchbar.
Nur:
die Vielfalt der Gestaltung ist groß, und die meisten Dokumente
haben
keine standardisierte Beschreibung von sich selbst - keine Metadaten.
Daraus folgt aber: es gibt wichtige Unterschiede zwischen Katalogen und
Suchmaschinen.
Diese
müssen wir nicht nur innerhalb der Bibliotheken begreifen, wir
müssen
sie auch unseren Nutzern verdeutlichen. Das einheitliche Suchen im
gesamten
Wissens-Universum ist vorerst Utopie.
Weiter unten folgt
ein Versuch, den momentanen Stand der Unterschiede tabellarisch zu
beschreiben.
Zuerst aber soll es hier um Kataloge gehen, und besonders um die Unterschiede zwischen unseren zeitgenössischen Katalogen, den Online-Katalogen (früher OPACs genannt), und den hergebrachten, den Zettelkatalogen. Dann geht es um die Frage, was daraus für die Katalogisierung und ihre Regeln folgt.
Was ist heute das Hauptproblem bei der Suche?
In Zettelkatalogen fand man nur
vergleichsweise mühsam etwas. Aus dem Online-Katalog kommt dagegen
fast immer irgend etwas heraus - aber gerade das ist sein Hauptproblem:
denn es wird auf
keine Weise klar, ob das alles ist und ob das Beste auch wirklich
dabei ist. D.h. der Nutzer merkt nicht so leicht, ob ihm etwas entgeht
und womöglich sogar sehr viel oder sehr wichtiges. Nutzungsstudien
zeigen: es ist schwierig, Nutzer zu mehreren Versuchen oder
unterschiedlichen
Vorgehensweisen zu animieren - mit anderen Worten, sie zum Mitdenken
zu bringen. Genutzt wird überwiegend das, was als Standard ( default
)
angeboten wird; zum einen wegen der Tendenz, immer den vermeintlich
einfachsten
Weg zu gehen, zum andern vermutlich in der unreflektierten Meinung,
andere
Wege seien weniger gut. Solche Schwierigkeiten zu überwinden ist
nicht
die Aufgabe des Katalogs selbst. Der Katalog kann beliebig gut sein,
das
ist dabei nicht entscheidend. Mitdenken bleibt dem Nutzer nicht
erspart, heute wie
früher, und so wird es bleiben. Und dies Faktum sollte ihn
durchaus
beruhigen - er wäre sonst womöglich selber durch
eine
Maschine ersetzbar... Doch wie dem auch sei: selbstverständlich
soll man
leichte Zugänge schaffen für einfache Fragen, aber genauso
soll
der anspruchsvolle Nutzer auf ansprechende Weise eingeladen werden,
ausgefeilte
Techniken kennenzulernen und im Bedarfsfall für sich einzusetzen.
Was ist ein guter Katalog?
Nach aller Erfahrung könnte man ihn so charakterisieren:
Von der Linie zum Mehrdimensionalen
Raum
Der entscheidende, bedeutendste Unterschied zwischen Zettelkatalog und Online-Katalog ist dieser:
Zettelkatalog: eine lineare, also eindimensionale Folge von Einträgen. Oft gibt es mehrere Katalogteile ("Alphabete") mit zeitlicher Schichtung und/oder eine Aufteilung in Formal- und Sachkataloge. Für jedes Dokument können mehrere Zettel an verschiedenen Stellen eingeordnet sein, einer davon ist die "Haupteintragung". Diese Stelle dient dazu, die Ausgaben eines Werkes und die Werke eines Verfassers zusammenzuführen. Diese Stelle dient aber auch dem zuverlässigen Auffinden: kennt man das Prinzip, kann man durch Nachsehen an einer einzigen Stelle herausfinden, ob das Gesuchte da ist oder nicht.
Online-Katalog: im Prinzip eine ungeordnete Datenmenge. Die Software kann daraus aber mit Hilfe vieler formaler und sachlicher Kriterien Teilmengen extrahieren und dann in einer bestimmten Ordnung auflisten. Diese Kriterien, Namen, Titel, Nummern, Schlagwörter usw., können bei einer Suche beliebig miteinander kombiniert werden. Sie sind somit so etwas wie die Achsen eines mehrdimensionalen Raumes, in dem man sich bei der Suche in allen Richtungen bewegen kann. Das ist recht abstrakt, deshalb liegen auch die Probleme nicht unmittelbar auf der Hand.
Die Konsequenz: beim Zettelkatalog kommt es entscheidend auf die Reihenfolge der Einträge an, denn nur sie bestimmt darüber, ob und wie man etwas finden kann. Die Reihenfolge ergibt sich aus zwei Entscheidungen, die beim Katalogisieren zu treffen sind:
Leicht kommt die Meinung auf, für Online-Kataloge brauche man nicht mehr solche differenzierten Regeln wie für Zettelkataloge, weil man nach jedem Kriterium und nach Kombinationen davon suchen könne und nicht mehr an eine bestimmte, lineare Ordnung gebunden sei. Das ist jedoch ein voreiliger Irrtum, wie man leicht erkennt, wenn man sich die Situationen vor Augen führt, in denen ein Katalog gebraucht wird:
Standardsituationen bei der Suche
Die häufigste Situation ist
wahrscheinlich
die Suche nach einem bestimmten Faktum .
Dafür eignen sich Kataloge wenig, weil sie nur
Beschreibungen
von Dokumenten enthalten, nicht deren Inhalte.
Suchmaschinen dagegen
indexieren
eben gerade die online zugänglichen Texte als solche, und zwar
komplett,
und führen somit direkt zu den darin aufgezeichneten Fakten. Auf
dem
Gebiet der Faktensuche sind daher heute die Suchmaschinen für
viele
Nutzer die erste Adresse oder das Nachschlagewerk schlechthin:
man
nutzt sie als Adress- und Telefonbuch, Wörterbuch, Lexikon, Atlas,
Kalender, Fahrplan, Nachrichtenquelle, Wetterdienst, Buchungsdienst,
Bilderbuch u.a.m. Kataloge
dagegen
kann man nicht in dieser Weise benutzen, sie führen nur zu
vorhandenen
Nachschlagewerken hin. Der Suchvorgang ist somit als Ganzes viel
langwieriger
und umständlicher. Nach gedruckten Lexika sucht man aber
meistens
gar nicht im Katalog, sondern im Freihandbestand...
Wenn man von der Faktensuche absieht
und sich die Dokumentensuche anschaut, erlebt man drei sehr
verschiedene
Situationen, für die es leider im Deutschen nicht solche kompakten
Bezeichnungen gibt wie im Englischen:
a) Known item search ("Ich weiß genau, was ich suche" - Erinnerungsrecherche): Man sucht nach einem Dokument, zu dem man bereits genaue Angaben hat, etwa ein Zitat aus einem Literaturverzeichnis.
Außerdem braucht man noch Regeln, die eine möglichst knappe Beschreibung jedes Dokuments leisten, die aber doch eine sichere Unterscheidung zwischen unterschiedlichen Dokumenten (und Versionen davon) ermöglicht. Diese "Beschreibungsregeln" sollen also zuverlässig das Unterschiedliche trennen . Wenn allerdings schon der nächste Mausklick das Dokument selbst hervorzaubert, ist eine kunstvolle Beschreibung nicht mehr gar so wichtig wie bei Magazinbeständen, wo man schon vor der Bestellung entscheiden können möchte, ob die Wartezeit sich lohnt.
Die Situation b) mit dem Aspekt "Ausgaben eines Werkes" wird immer leicht übersehen oder wenig berücksichtigt, und sie tritt wohl relativ selten auf - welches Werk erscheint schon in mehr als einer Ausgabe oder Version? Wer noch nicht von der (relativen) Wichtigkeit dieses Aspekts überzeugt ist, braucht sich nur folgende Fälle vorzustellen, die alle nur dann zu Erfolgen führen, wenn der Katalog das Zusammengehörige zusammenführt, also z.B. die verschiedenen Ausgaben oder Versionen einer Veröffentlichung:
Perfektion ist jedoch nicht erreichbar: oft hat z.B. eine Bibliothek nur eine einzige Ausgabe und hatte beim Katalogisieren von der Existenz anderer Ausgaben keine Kenntnis, zumal wenn diese später erst erschienen. Dann kann nur diese eine gefunden werden, aber nicht unter dem abweichenden Titel einer anderen. Solche Fälle sind in Verbunddatenbanken seltener!
Dasselbe immer wieder anders
Als Folge der heutigen Medienvielfalt, vor allem im Internet erscheint noch öfter als früher ein Werk in mehreren "Ausprägungen" (engl. "manifestations"): derselbe Inhalt kann ganz leicht unterschiedlich präsentiert werden, z.B. in verschiedenen Dateiformaten oder Druckformatierungen. Für das Katalogisieren hat sich also das Problem weiter verschärft. Gerade im Internet wird sehr nachlässig mit den Titeln der Dokumente umgegangen, diese aber sind das wichtigste Element zur Identifizierung. Wenn unterschiedliche Ausprägungen nicht denselben Titel tragen, kann kein Programm dies erkennen und vereinheitlichen, sondern das Festlegen und Eingeben eines Einheitstitels kann nur ein Mensch leisten.
Nicht in allen Bereichen ist das
Problem
der Titelvarianten virulent. Am wenigsten wohl in den
Natur- und Technikwissenschaften
(viele Dokumente erscheinen nur ein einziges Mal), viel mehr in der
Belletristik
(viele Übersetzungen), am meisten in der Musik (von vielen
Stücken
gibt es ungezählte Aufzeichnungen mit immer wieder anderen
Titeln).
Der "Einheitstitel" ist das katalogtheoretische Rezept, die Vielfalt
der
Ausprägungen und Ausgaben zu bündeln. Was CD-Ausgaben
klassischer
Musik betrifft, hat das auch Amazon längst erkannt: offensichtlich
wird dort das Konzept des Einheitstitels konsequent angewandt.
RAK und AACR arbeiten nur formal, nicht sachlich!
Die Regelwerke RAK und AACR befassen sich nur mit den Situationen a) und b). Dabei handelt es sich um Zusammenhänge, die formal beschreibbar sind, bei c) geht es jedoch um den Inhalt - die Domäne der Sacherschließung.
In Zettelkatalogen hat man oft für c) getrennte Karteien angelegt, Online-Kataloge jedoch bieten in der Regel die Suche nach Schlagwörtern und/oder Systemstellen in derselben Datenbank an.
Die beschriebenen Probleme sind im Prinzip bekannt seit den Arbeiten Antonio Panizzis am Britischen Museum im 19. Jhdt (um 1841 erschien sein Regelwerk "Ninety-One Rules"). Er hatte sich zur Aufgabe gemacht, erstmals einen Katalog für die Bibliothek zu schaffen. Seine Arbeitgeber verstanden nichts davon und stellten sich die Sache einfacher vor, er hatte deshalb einige Mühe, ihnen seine Erkenntnisse zu vermitteln und finanzielle Unterstützung zu gewinnen. Diese Situation wiederholt sich seitdem immer wieder ...
Bemühungen um
Internationalisierung
der Katalogisierungsgrundsätze gab es aber erst Mitte des 20.
Jahrhunderts.
Ein Höhepunkt war die große IFLA-Konferenz von 1961 in
Paris, deren
"Statement
of Principles" zur Grundlage des deutschen Regelwerks RAK, aber auch
der
angelsächsischen AACR wurde. Erst 1999 brachte die IFLA ein neues
Grundsatzpapier heraus, betitelt "Functional
Requirements of Bibliographic Records" (FRBR), das zunehmend nicht
nur in
Bibliotheken, sondern auch in Metadaten-Projekten Beachtung findet.
Kernpunkte
dieses IFLA-Papiers wurden in dem Vortrag "Grundsätze
und Ziele des Katalogisierens" auf dem Bibliothekartag 2002 in
Augsburg
in neuer Form vorgestellt. Auf der IFLA-Tagung 2003 in Berlin wurde
ein
neuer Entwurf zu einem modernisierten "Statement of
Principles" beraten.
Die FRBR versuchen, zu sagen, was für Objekte bibliographische
Daten beschreiben und wofür sie gut sein sollen und was für
Eigenschaften sie demnach haben sollten. Die "Principles" beschreiben,
was Online-Kataloge leisten sollen. Was folgt daraus für die
Katalogisierungsregeln? Daran wird noch gearbeitet, sowohl für RAK
(neue Version: RfK) wie
auch für AACR (neue Version: AACR3,
2007).
Geht RAK nur mit MAB2 und AACR nur mit MARC21?
Kataloge und Suchmaschinen
Wieder und wieder werden Kataloge und Suchmaschinen in einem Äpfel-mit-Birnen-Vergleich nebeneinander gehalten. Nicht immer geschieht das direkt, manchmal nur durch Anspielungen, aber bisweilen kommt für die Äpfel der Rat heraus, sich mal eine Scheibe von den Birnen abzuschneiden.
Die Absicht hier ist nicht, das eine gegen das andere auszuspielen, sondern es sollen die Unterschiede klar herauskommen, um die Einschätzung zu objektivieren.
Eine echte Konkurrenzsituation besteht allerdings gar nicht: Kataloge und Suchmaschinen erschließen nicht dieselben Inhalte; das allermeiste Printmaterial ist nach wie vor nirgends online verfügbar, und Netzinhalte könnten oftmals beim besten Willen gar nicht in Druckform erscheinen, weil sie keine lineare, als ganzes abdruckbare Struktur haben.
Es gibt aber eine breiter werdende Grauzone: Kataloge werden zunehmend auch mit wichtigen Netzinhalten angereichert, vor allem E-Zeitschriften, Online-Nachschlagewerke, digitale und digitalisierte Veröffentlichungen. Und andererseits: In Suchmaschinen findet man Hinweise auf Bücher, die irgendwo erwähnt, beschrieben oder rezensiert sind. Vieles, was früher auf Papier veröffentlicht wurde, wird jetzt "ins Netz gestellt", z.B. Preprints und Dissertationen. Wichtige ältere Bücher, die nicht mehr dem Urheberrecht unterliegen, werden digitalisiert und frei zugänglich gemacht. Werke der "Klassiker" in allen Sprachen sind zu großen Teilen sogar als Textdateien erhältlich, Musterbeispiel ist das "Projekt Gutenberg" mit tausenden von Titeln.
Die folgende Auflistung spricht eine Menge verschiedene Aspekte an, die dem einzelnen Nutzer durchaus nicht alle wichtig sind. Wer aber immer wieder nach Aufzeichnungen zu fahnden hat, ist gut beraten, sich einen breiten Überblick zu verschaffen.
(Formal- und Sachkatalog) |
|
|
Bestand | ||
Beschreibt einen konkreten Dokumentenbestand, in der Mehrzahl Bücher, der an einem oder mehreren Orten physisch vorhanden ist. | Weist Inhalte nach, die weltweit verteilt sind. In der Mehrzahl sind diese "Ressourcen" nicht mit Büchern vergleichbar. | |
Umfang | ||
Der
reale Bestand ist in jedem Fall eine Auswahl aus einer viel
größeren
Menge von publizierten Dokumenten. Die Auswahl erfolgt meist nach
sachlichen
und Qualitätskriterien, kann aber durchaus subjektiv ausgerichtet
sein. Aus Geldmangel können einzelne Bibliotheken auch die wichtigen Bücher eines Faches nicht alle kaufen. Die großen Verbundkataloge weisen viel mehr Titel nach, doch nicht alles ist erhältlich. |
In
der Intention umfassend und global , real jedoch bestenfalls
30%
des zugänglichen Materials. Umfang und Aktualität des Bestands sind nicht erkennbar, die Auswahl erfolgt rein automatisch. Vieles ist nicht absichtsvoll veröffentlicht worden. Die Qualität von Inhalten kann durch Software nicht bewertet werden, daher steht Wichtiges inmitten großer Mengen wertloser Dinge. |
|
Ziele | ||
Hat genau definierte Ziele (RAK §101), wodurch es möglich ist, nach einem oder wenigen Versuchen so gut wie sicher zu sein, ob das Gesuchte da ist oder nicht , jedenfalls für bestimmte Arten von Fragestellungen, auch wenn die Schreibweisen der Wörter oder Namen in den Dokumenten unsicher sind. M.a.W.: bestimmte Abfragen haben eine hohe Zuverlässigkeit, darunter gerade solche vom Typ "known item search" und "collocation search". Recht genaue Kenntnis der Suchbegriffe und ihrer Schreibweise ist dann aber sehr wichtig. | Prinzipien für die Ziele einer Suchmaschine wären schwierig zu formulieren, jedenfalls in dem Sinne, klarzumachen, welche Art von Zugriffen Ergebnisse mit hoher Zuverlässigkeit oder Präzision erbringen würden. Insbesondere "subject search" und "collocation search" sind nicht zuverlässig realisierbar. Was "known item search" betrifft: Kennt man zwei oder drei prägnante Wörter, die irgendwo im Text vorkommen müssen , so ist die AND-Suche recht zuverlässig. Vermutlich dominiert aber heute die Faktensuche, denn mit etwas Glück und Spürsinn kann man nirgends so schnell eine Adresse, ein historisches Datum, eine Wortbedeutung, einen Termin, eine Statistik oder ein Bild finden. | |
Erwartung und Vorstellung des Nutzers vom Bestand | ||
Der Bestand ist daher kleiner als es nach der Vorstellung der meisten Nutzer wünschenswert wäre, jedoch bemühen sich die Bibliotheken um eine qualitätvolle und ausgewogene Auswahl von Dokumenten mit längerfristiger Bedeutung. Verbundkataloge fassen Bestände zu einer virtuellen Gesamtheit zusammen. | Die indexierte Menge ist u.U. viel größer , als ein Nutzer es sich vorstellt, aber wertvolle Ressourcen stehen undifferenziert inmitten Massen ephemeren, wissenschaftlich unbedeutenden Materials. Es wird aber versucht, mit formalen Kriterien eine Gewichtung (sog. "relevance ranking") durchzuführen. | |
Transparenz (Durchschaubarkeit) | ||
Grundsätzlich kann ein interessierter Nutzer
alles über die Funktionsweise des Katalogs erfahren und somit auch
das Zustandekommen eines Suchergebnisses durchschauen. Vor allem, wenn
es um wissenschaftliche Information geht, ist es unabdingbar notwendig,
Endnutzern eine Einschätzung der Zuverlässigkeit und
Vollständigkeit von Ergebnissen zu ermöglichen. Bei
sachlicher Suche gelten natürlich die bekannten Probleme mit
"recall" und "precision", die sich nie vollständig lösen
lassen. (Die Bibliothek braucht nichts geheimzuhalten, denn sie hat vollständige Kontrolle über den Katalog, kein Nutzer kann seine Daten und Funktionen beeinflussen.) |
Suchmaschinenbetreiber können die Arbeitsweise
ihrer Software nicht vollständig offenlegen, weil die sog.
"Suchmaschinen-Optimierer" dieses Wissen dann ausnutzen, um durch
geeignete Gestaltung von Texten und Metadaten ein hohes "Ranking" zu
erzielen. Das Zustandekommen von Ergebnissen, das Ranking, die Zuverlässigkeit und Vollständigkeit sind deshalb für den Endnutzer mindestens teilweise undurchschaubar. Außerdem ist es wegen der enormen Datenmengen notwendig, in der Suchsoftware Kompromisse zwischen Präzision und Geschwindigkeit zu machen. So sind die Trefferzahlen i.d.R. nur Schätzungen. |
|
Art der Daten | ||
Besteht
aus normierten Kurzbeschreibungen (Titelaufnahmen), die nach
festgelegten
Regeln einheitlich angefertigt werden. Die meistverwendeten Regeln sind
AACR und RAK. Für jedes Dokument gibt es einen strukturierten
Datensatz
mit genau definerten Feldern. Die Feldstruktur entspricht einem
Datenformat.
Die meistverwendeten Formate sind MARC und MAB. Die Feldinhalte
entsprechen
dem verwendeten Regelwerk. Objekte (Dokumente) haben typischerweise einige formal definierte Teile (z.B. Haupttitelseite), von denen sich Metadaten in formaler Weise ableiten lassen. Dies ist wichtig für die Austauschbarkeit der Daten und z.B. virtuelle Kataloge. Einige Beispiele zeigen deutlich: Datenformat und Regelwerk sind zwei ganz verschiedene, sich jedoch ergänzende Gebilde. |
Es
gibt keine normierten Beschreibungen der Dokumente, die
Datenbank
besteht eigentlich nur aus großen Indexdateien, die aus den
Dokumenten
direkt abgeleitet sind. Die Indexdateien werden als solche nicht
gezeigt,
denn sie sind nicht als schlichte alphabetische Listen organisiert.
Einheitlichkeit
ist nicht möglich, weil das Material in keiner Hinsicht
standardisiert
ist. Nur wenige Objekte haben Metadaten. Es gibt auch kaum formal
definierbare Teile, die bei jedem Objekt auftreten, daher ist schon das
Definieren einheitlicher Metadaten kaum möglich. Eine Entsprechung
zum Titelblatt gibt es z.B. nicht, und viele Webseiten haben noch nicht
einmal einen eindeutig erkennbaren Titel. Selbst wenn es Metadaten gibt, sind sie selten hilfreich, weil uneinheitlich, zu simpel und zu mager. Der meistverwendete semantische Standard ist "Dublin Core", Regeln für die Inhalte werden jedoch kaum verwendet, oder aber keine einheitlichen - es ist auch kaum möglich. |
|
Entstehung der Datenbank, die zur Suche dient | ||
Die
Volltexte selbst liegen i.d.R. auf Papier vor, d.h. sie stehen nicht
für
eine automatisierte Auswertung zur Verfügung! Die Beschreibungen beruhen im Wesentlichen auf einer Titelseite oder einem Äquivalent und umfassen keine weiteren Teile des Inhalts. Diese Struktur ist an den früheren Katalogkarten orientiert. Automatisches Katalogisieren (Titelblätter scannen usw.) ist nicht möglich, die Beschreibungen müssen intellektuell-manuell angefertigt werden. |
In
den Indexdateien ist meist das gesamte Wortmaterial der
Volltexte
(!) aufbereitet. So etwas wie Titelseiten, ja sogar Titel gibt es oft
gar
nicht. Deshalb wird per Software versucht, die jeweils entscheidenden
Zeilen
eines Dokuments für die Anzeige aufzubereiten, um den Kontext der
gefundenen Wörter sichtbar zu machen.
Die Daten werden vollautomatisch aus den
online
vorliegenden Dokumenten gewonnen und für die Suche aufbereitet. |
|
Abfrage-Kriterien | ||
Abfragen
können nach mehreren verschiedenen Kriterien und auch
Kombinationen
davon erfolgen: Namen, Titelwörter, Titelanfänge,
Schlagwörter
u.a., oft gibt es auch einen "Basic Index", der alle diese Elemente in
sich vereinigt
und jedes Einzelwort zugänglich macht.
Die Kriterien beziehen sich aber i.d.R. nur auf die Dokumente als Ganzes, nicht auf Teile davon, etwa einzelne Aufsätze oder Kapitel (d.h. fast immer gibt es keine Tiefenerschließung ). |
Abfragen
werden meistens durch Volltextsuche im
gesamten Bestand
erledigt,
wofür ein einzelnes Eingabefeld genügt. Es sind meist auch
gewisse
Differenzierungen der Abfrage möglich, doch z.B. nicht nach Namen
/ Stichwörtern / Titeln / Schlagwörtern / Jahreszahlen, weil
es dazu keine
Datenfelder
gibt. Andererseits wäre dies auch schwierig, weil z.B. nicht jedes
Web-Dokument einen einen erkennbaren Titel hat. Nützlich kann eine
Suche nach
URL-Bestandteilen
sein. Hat man prägnante Suchwörter, kann man jedoch oft Erfolge erzielen, wenn ein Bibliothekskatalog nichts ergeben würde. Das geht z.B. bis zur Möglichkeit der Suche nach Bildern, die in Texten vorkommen. Eine Tiefenerschließung ergibt sich wie von selbst, weil der gesamte Text indexiert ist. Für die "Relevanz"-Bewertung zählt i.d.R. aber mehr, was am Anfang des Dokuments steht. Volltext-Indexierung liefert andererseits viele irrelevante Nachweise. |
|
Browsing | ||
Statt
einer direkten Abfrage kann auch über das Blättern in
diversen Registern gesucht werden. Dies wird von Praktikern
für unverzichtbar
gehalten, erleichtert doch das Browsing in den Registern oft das
Auffinden,
wenn man die genaue Schreibweise nicht kennt, oder nicht an flektierte
Formen des Suchworts denkt (Plural, Genitiv u.a.)
Denn
die Wörter sind nur in der Form auffindbar, wie sie
tatsächlich
im Titel stehen!
Auch Zufallsfunde ("serendipity") werden durch Register ermöglicht. |
Suchmaschinen
haben keine Register zum Blättern. Dies wird zwar selten
bemängelt,
aber gerade wegen der völlig fehlenden Normierung der
Datenelemente
könnten solche Register gelegentlich sehr helfen. Die gewaltigen
Datenmengen
und die Art der Daten- und Indexorganisation (die Daten haben keine
sehr
differenzierte Feldstruktur!) erlaubt aber solche Register wohl
nicht.
Weil die Volltexte indexiert sind, spielt das Problem der Flexionen keine so große Rolle wie beim Katalog: meistens kommt sowohl der Singular wie der Plural und andere Formen der wichtigen Wörter irgendwo im Text vor. |
|
Ordnung
von Ergebnissen ("Ranking") |
||
Die
Ordnung von Ergebnislisten erfolgt traditionell ganz formal nach dem Alphabet
der
Verfasser oder Titel, oder nach dem Erscheinungsjahr. Manche
Systeme
erlauben eine Auswahl verschiedener Ordnungen.
Für eine "Relevanz"-Gewichtung
können
oder könnten nicht nur Erscheinungsjahr, Umfang, Sprache und
Nachbarschaft
von Wörtern dienen, sondern auch die Tatsache der Existenz
höherer Auflage oder Übersetzungen.
Besonders dies letztere ist wohl noch nicht versucht worden. |
Die
Ordnung der Ergebnisse wird nach sehr unterschiedlichen Kriterien
vorgenommen,
die selten direkt nachvollziehbar sind. Wenn von "Relevanz"
die Rede ist, dann ist zu bedenken: Relevanz kann grundsätzlich
nicht von Maschinen klassifiziert werden - sie ist subjektiv. Eine
Suchmaschine kann
jedoch
Kritierien heranziehen, für die es in Katalogdaten keine Parallele
gibt, wie z.B. die Bewertungskriterien bei Google: hier wird u.a.
ausgewertet,
wieviele andere Web- Dokumente auf das zu indexierende verweisen.
Ordnungen nach Jahr oder Alphabet sind nicht möglich, weil die notwendigen Metadaten dafür nicht vorliegen. (Noch nicht einmal das Erstellungsjahr der Datei ist in einem HTML-Text standardmäßig enthalten, höchstens das letzte Änderungsdatum, aber auch nicht immer) |
|
Normierung | ||
Es
gibt Normierungen (engl. "Authority Control") für die
wichtigsten
Datenelemente (Namen, Einheitstitel, Schlagwörter). Daher
kann
man in manchen, wichtigen Fällen sicher sein, ein recht
präzises
Ergebnis zu erhalten, aber durchaus nicht in allen Fällen, die dem
Nutzer wichtig sind, z.B. eben gerade nicht bei thematischer Suche.
Denn
nicht jedes Thema, das in einem Buch behandelt wird, kann bei der
Schlagwortvergabe
berücksichtigt werden. Doch für die wichtigen Fälle
"Werke
eines Verfassers" und "Ausgaben eines Werkes" ( collocation search )
leistet ein Katalog gute Dienste.
Ferner ist wegen der Normierung recht schnell und zuverlässig feststellbar, ob ein Dokument nichtvorhanden ist. |
Es
gibt keine Normierungen , denn Erfassung und Indexierung
erfolgen
vollautomatisch, und die Dokumente selbst sind nicht hinreichend
standardisiert.
Manuell / intellektuell wären die Mengen nicht zu bewältigen.
Der Mangel an Normierungen
ermöglicht
präzise Ergebnisse nur dann, wenn bestimmte Namen/Wörter mit
Sicherheit in einer ganz
bestimmten
Schreibweise in den gesuchten Dokumenten vorkommen und man dies vorher
weiß. Eine Feststellung auf Nichtvorhandensein eines bestimmten Dokuments kann schwierig sein. |
|
Verfügbarkeit der Dokumente | ||
Ein gefundenes Dokument ist mit hoher Sicherheit auch vorhanden und zugänglich - möglicherweise aber ausgeliehen und dann nicht sofort erhältlich. Bestände anderer Bibliotheken sind i.d.R. über Fernleihe zugänglich, doch im Vergleich zum Mausklick ist das ein ungemein langsames Verfahren. | Ein gefundenes Dokument ist meistens sofort zugänglich, manchmal aber nicht oder nicht mehr vorhanden oder nicht sofort auffindbar. (Dem würde es entsprechen, wenn eine Bibliothek ständig Signaturen ändern und Bücher ausscheiden, diese Änderungen aber nicht oder nur mit Verzögerung im Katalog nachvollziehen würde.) | |
Aktualität des Materials | ||
Bibliotheksbestände sind zum großen Teil Materialien, die auf längere Lebensdauer angelegt sind. Lang war immer auch der Weg von der Produktion über den Geschäftsgang bis in den Katalog und damit zum Leser. Durch Integration der Arbeitsgänge und Nutzung von Fremddaten ist heute die Zeit bis zur Bereitstellung viel kürzer als früher. Zwar ist Aktualität oft ein wichtiges Kriterium, doch den Schwerpunkt der Bibliotheksbestände bilden die Aufzeichnungen gesicherter Erkenntnisse, nicht aktueller Diskussionen oder Berichte. | Suchmaschinen
sind i.d.R. besonders stark im Nachweis aktuellen Materials. Texte, die
"ins Netz gestellt" werden, können unmittelbar von Suchmaschinen
indexiert
werden, ohne weitere personalgebundene Arbeitsgänge. Meistens
dauert
es einige Wochen, bis neue Inhalte in den Suchmaschinen auftauchen -
das
liegt am großen Umfang des Netzes. Ein großer Teil der
Materialien
im Netz hat sich noch gar nicht in "richtigen" Veröffentlichungen
niedergeschlagen. Es gibt spezielle Suchmaschinen für die tägliche Indexierung von Nachrichtenquellen. |
B. Eversberg, UB
Braunschweig
2002-03-04 / 2005-07-06