Stand: 2004-10-11
Bernhard Eversberg, UB Braunschweig
Linz 22.09.2004, Österreichischer Bibliothekartag
Themenkreis: Google und die Zukunft der bibliothekarischen Erschließung
9. Schlußspruch |
|
Solange es Offline-Dokumente gibt,
die gebraucht werden, so lange muß es Katalogisierung geben. Möchte man meinen
– vielleicht ist das aber doch zu oberflächlich gedacht! Google steht in
Verhandlungen mit Verlagen, die ihre Titeldaten im Netz leichter auffindbar
machen wollen, ohne aber die Volltexte preiszugeben: "Google Print"
ist im Experimentierstadium. Das ist ein neuer Schritt auf den Käufer zu,
völlig vorbei an den Bibliotheken. Bleiben über kurz oder lang nur die
verlegerisch uninteressanten, älteren, nicht mehr im Handel befindlichen Werke,
eine Art Bodensatz also, den Bibliotheken als Domäne übrig?
Das
"Grundgesetz der Informationssuche" hat uns früher nicht viel
ausgemacht: vieles konnte man ja nur
in Katalogen suchen, und die waren eben so, wie sie waren. Dieses Gesetz ist
ein Hauptgrund für den Erfolg von Google.
Heute haben Bibliotheken jedoch ein Marketingproblem: Gut
erschlossene Bibliotheksbestände sind und bleiben notwendig! Diese Einsicht
muß "verkauft" werden, sie ergibt sich nicht (mehr) von selbst. Und
"gut erschlossene Bestände" heißt natürlich, daß gute Katalogisierung
ihren Sinn behält: Gute Kataloge sind Stützpfeiler guter Bibliotheksarbeit.
Wer heute irgendein Faktum braucht, wendet sich an Google – das Tätigkeitswort "googeln" wurde in den neuesten "Duden" aufgenommen! Diese Suchmaschine ist für viele gewissermaßen DAS Nachschlagewerk schlechthin und in weitestem Sinne. Diese Wahrnehmung und die erlebte Funktionsweise prägen sicherlich die Erwartungshaltung hinsichtlich anderer Nachschlagewerke, u.a. Bibliothekskataloge. Wir können nur vermuten (denn dazu sind uns keine Untersuchungen bekannt), daß Google für viele die Entdeckung der Einfachheit ist – wobei sie vorher von Nachschlagewerken oder ihrer Benutzung wenig oder nichts wußten. Wenn nun viele, die vorher wenig oder nichts fanden oder nicht wußten, wie sie es anstellen sollten, normalerweise etwas Brauchbares finden, heißt das noch nicht, daß die meisten damit schon in der Lage sind, in allen Fällen etwas Gutes zu finden. Es heißt auch nicht, daß Google das optimale Instrument für jede Informationssuche ist oder als Vorbild für jede Art von Katalog dienen kann (s.a. Kap. 8).
Gewiß, für die Faktensuche gibt es auch Instrumente wie z.B. die Wikipedia, aber selbst deren Inhalte werden wohl meistens per Google gefunden (Sept. 2004: 140.000 deutsche Artikel).
Wenn man
Studien zur Erfolgsquote anstellt, sollte man nicht den Versuchspersonen Aufgaben
stellen (und damit schon gewisse Suchbegriffe suggerieren), sondern versuchen
herauszufinden, mit was für Themen und was für Eingaben sie tatsächlich Erfolge
oder Mißerfolge erlebt haben.
Links: Google-Print, Zur Theorie der Kataloge ...
Amazon hat Namensnormierung und
Einheitstitel, jedenfalls für die Musik. Man hat diese Dinge anscheinend neu
erfunden; hätte man die Normdaten der LC genommen, könnte man leicht
Quer-Abfragen zwischen beiden machen.
Z.B. hat
Amazon: Pyotr
Il'yich Tchaikovsky
aber die LC hat: Tchaikovsky,
Peter Ilich, 1840-1893
RAK
dagegen: Čajkovskij, Pëtr
Ferner
katalogisiert Amazon auch alle Stücke einer Musik-CD, so daß sie einzeln
auffindbar sind. Per "Search inside the book" sind in vielen Fällen
auch die Wörter der Inhaltsverzeichnisse und der ersten Seiten suchbar.
Für den
Privatbereich gibt es Softwaretools, um günstige Bücherangebote im Internet zu
finden: z.B. "Book Browser". (Bibliotheken finden dabei keine
Erwähnung, obwohl das Ausleihen von Büchern gar nichts kostet.)
Links:
Search
inside the Book (Amazon)
Book Browser (mehrere
Internet-Buchhandelskataloge absuchen)
CrossRef.org (Testphase mit zunächst 29 großen
Verlagen)
Früher gab es zum Auffinden von
Publikationen kaum Alternativen zu Katalogen, und um die zu benutzen, mußte man
in die Bibliotheken gehen. Jetzt kann man Kataloge an jedem PC im Netz
benutzen, aber auch viele andere Suchdienste können zu relevanten Publikationen
hinführen, und diese lagern nicht unbedingt in Bibliotheken.
Online-Dissertationen, digitalisierte Bücher und E-Zeitschriften mögen in
Papierform auch in Bibliotheken vorrätig sein, aber finden und nutzen kann man
sie auch ohne jene und ohne ihre Kataloge.
Siehe auch
3.3 "Sonderkataloge" (u.a. vascoda:
die 21 Virtuellen Fachbibliotheken haben z.T. auch Katalogdaten einbezogen.)
Virtuelles
Bücherregal und Open WorldCat sind ausdrücklich auf Google ausgerichtet. OAI
ist nach allen Seiten offen, wird aber vorwiegend für Metadaten von
E-Publikationen eingesetzt.
Links:
OAI (Open
Archives Initiative)
Rot: Nachteil, Grün: Vorteil.
Es fehlen Nutzungsstudien und Evaluationen, aber der Eindruck ist wohl nicht falsch, daß Suchmaschinen vorwiegend der schnellen Suche nach Fakten aller Art dienen, in Katalogen dagegen sucht man umfangreichere Darstellungen zum Lesen, Lernen und Studieren, die man typischerweise in Büchern findet. Nachschlagewerke aller Art haben deshalb in Bibliotheken schon viel von ihrem Stellenwert eingebüßt.
Zur Frage des "Ranking" speziell bei Google siehe 2.1, 4.4 und 6.2.
Techniken wie Trunkierung und Maskierung scheinen bei Suchmaschinen von geringer Bedeutung zu sein: Google kennt sie gar nicht. Volltext-Indexierung hat den Vorteil, daß im Text die wichtigen Wörter in mehreren Flexionsformen und Verbindungen vorkommen, daher wird meistens sowohl der Singular wie der Plural eines Suchworts gefunden werden, weil beide im Text auftreten.
Wer eine Dissertation oder ein Buch
braucht, weiß meistens nicht, ob es auf Papier oder digital vorliegt. Weil alle
Papierausgaben nur im Bibliothekskatalog zu finden sind, sollte man dort im
selben Suchvorgang auch die entsprechenden E-Publikationen finden können. Weil
aber auch Publikationen viele Fakten enthalten, die (mangels
Volltext-Indexierung) kein Katalog im einzelnen nachweist, müssen E-Texte für
Suchmaschinen zugänglich angeboten werden. Für deutsche wissenschaftliche
Server gibt es das Forschungsportal.
Man hatte dort große Mühe, die relevanten Server alle ausfindig zu machen und an
deren Inhalte heranzukommen!
Diese
Einsicht hat sich noch nicht flächendeckend verbreitet.
Kernfrage: Welche Dinge können Kataloge besser
auffindbar machen als Suchmaschinen, und in welcher Weise? Was sind also die
Objekte, die Eingang in Kataloge finden müssen?
Die
Katalogisierung IST schon ein gutes Stück in die Zukunft katapultiert worden,
wenn man bedenkt, was de facto schon alles gemacht wird, ohne daß eine
Regelwerks-Revolution stattgefunden hat.
Einheitlichkeit,
also Normierung, ist heute von weit größerer Bedeutung als je zuvor, denn
virtuelle Kataloge und automatische Abfragen zwischen Katalogen können anders
nicht zuverlässig funktionieren.
Was
auch Suchmaschinen gut können, ist mit + markiert.
Wir wissen wenig über die Häufigkeit und Gewichtung dieser Typen aus
Nutzersicht! (Die Ausdrücke "Erinnerungs- und Entdeckungsrecherche"
verwendete Robert Fugmann in: Information – Wissenschaft und Praxis, 55(2004)4,
S.211-20.) Bei Entdeckungsrecherchen müßte man freilich unterscheiden zwischen
dem bekannten Unbekannten (das z.B.
schon in Klassifikationen oder Thesauri durchaus abgedeckt ist) und dem unbekannten Unbekannten, das vielleicht
schon irgendwo behandelt wurde, vielleicht aber auch nicht oder unter anderen
Aspekten.
Die
Google-Methode der Gewichtung von Ergebnissen zielt darauf, das Vielzitierte
und deshalb mutmaßlich Bekannte, Beliebte oder Wichtige nach oben zu bringen.
Das ganz Neue, das noch weithin Unbekannte oder Unbeachtete, das noch wenig
Zitierte schafft es deshalb nicht unter die Top 20. Wissenschaftliche
Fragestellungen zielen aber nicht selten auf das Entlegene, das noch wenig oder
gar nicht Erforschte. Interessant ist aber, was der Verlag Elsevier bei einer
Umfrage ermittelte: nur 26% der Wissenschaftler meinen, für ihre Zwecke sei
Google als Informationsquelle nicht ausreichend. Bibliothekare waren dagegen zu
63% besorgt, daß sich ihre Kunden zu sehr auf Google verließen... (LibraryConnect
newsletter, Elsevier, June 2004, S. 5)
Entscheidend
für den Sucherfolg bei einer Entdeckungs-Recherche ist oft, ob es prägnante
Wörter gibt, die vorkommen müssen und die in anderen Zusammenhängen selten oder
gar nicht vorkommen. Ist das nicht der Fall, wird es viel schwieriger.
Zufallsentdeckungen
kann man selbstverständlich nicht systematisch fördern. Zettelkataloge haben
durch sinnreiche Anordnung aber schon immer das "browsing"
unterstützt und dadurch den Blick des Nutzers nicht selten auf brauchbare Dinge
gelenkt, die ihm andernfalls entgangen wären (auch "Serendipity"
genannt). Online-Kataloge könnten in dieser Hinsicht noch mehr tun; teilweise
stellen sie schon durch Verlinkung vielerlei Navigations-Beziehungen her. Unbedingt
notwendig sind auch gut gestaltete alphabetische Register, in denen freizügig
geblättert werden kann.
Link: Topic
Maps
FRBR ist in Mode, es ist aber keine
vollkommen neue Idee!
Das
Katalogisierungssystem IBIS der UB Bielefeld (daraus ging DABIS hervor) hatte
schon in den 1970er Jahren die wesentlichen Züge des FRBR-Modells.
Alte
Kataloge, z.B. die des Britischen Museums, der Bibliothèque Nationale, aber
auch der Deutsche Gesamtkatalog, versuchten bei den "Vielschreibern"
eine Anordnung des Materials, die sehr an die FRBR-Gliederung "Work –
Expression – Manifestation – Item" erinnert. Anwendbar ist das Modell
wegen des Aufwands sicher nicht auf die Gesamtheit aller Bestände, sondern in
kleinen Teilbereichen. Die große Mehrheit der Dokumente erscheint ja nur in
einer Ausgabe und Ausprägung, und dann ist FRBR gar nicht relevant.
Links:
VIAF (OCLC,
DDB, LC)
AACR2 ist noch stark vom Zetteldenken geprägt. Nun kommt die
Online-Orientierung, dann aber gleich ausdrücklich auf Web-Kataloge gezielt, nicht
für Online-Kataloge ganz allgemein.
Spätestens wenn ein klares Bild
der Neuerungen vorliegt, muß man die Frage des Umstiegs auf AACR2 neu stellen -
man wird nicht mit großem Aufwand auf ein Auslaufmodell umsteigen wollen.
Dreh- und Angelpunkt wird dabei
die Virtuelle Internationale Normdatei (VIAF) sein, vgl. 6.7.
Wichtig wird auch das Kap. 21
sein: wird es mit den sehr einfachen RFK-Regeln für die Sucheinstiege
kompatibel sein? (siehe 2.4)
Ob es Verbesserungen in der Behandlung
mehrteiliger Werke geben wird, und nach FRBR müßte es sie geben, bleibt
abzuwarten. Es wird hierbei wohl aber weiterhin mehr um die Praxis gehen als um
den Wortlaut des Regelwerks. D.h. man würde sich wundern, wenn etwas
passiert...
Link:
Das größte Problem für uns ist die zukünftige
Organisation und personelle Ausstattung der Regelwerksarbeit. Bei einer
Übernahme der AACR wären Umfang und Anspruch dieser Arbeit nicht geringer,
sondern eher größer, weil ja die Übersetzungstätigkeit und das Erarbeiten von
Ausführungsbestimmungen hinzukommen. Wo sind, woher kommen die Fachleute mit
den nötigen Kenntnissen, Neigungen und Kompetenzen, und wer gibt ihnen dafür
die Zeit?
Die jetzt
abgeschlossene DFG-finanzierte Projektstudie beschränkt sich auf einige Aspekte
des anvisierten Umstiegs von RAK/MAB auf AACR/MARC, wobei die
Wirtschaftlichkeitsstudie einen großen Raum einnimmt. Das letzte Wort ist über
die Schlußfolgerungen sicher noch nicht gesprochen, zumal jetzt VIAF und AACR3
im Raum stehen!
Links
DFG-Projekt bei DDB,
RFK, Personennamen-Vereinheitlichung,
Sucheinstiege, Codierungsregeln
Damit der Teil 1 der
AACR leicht übernommen werden kann, wird die Numerierung aller Kapitel
und Paragraphen deren Struktur angepaßt.
Eine hohe Bedeutung für deutsche Bibliotheken hat die
Harmonisierung der Personennamen: Es bestanden bisher zu viele Unterschiede
zwischen wissenschaftlichen und öffentlichen Bibliotheken sowie zwischen den
Formen, die für die formale bzw. inhaltliche Erschließung maßgeblich waren. Der
jetzt vorliegende Harmonisierungsentwurf stützt sich wesentlich auf den Einsatz
und die Weiterentwicklung der PND als Normdatei.
Neu gegenüber der Zettelwelt ist: Katalogisierer machen gar
nicht mehr die ganze Arbeit: Indexierung, Präsentation, Abfragedialoge sind
wichtige Teile eines Online-Katalogs; Vorgaben hierfür muß es geben, sie werden
aber nicht vom Katalogpersonal umgesetzt.
Das führt zu der Frage, ob man im Zusammenhang mit
Online-Katalogen denn überhaupt noch ein geschlossenes Regelwerk braucht –
zumal dann, wenn diverse neue Anreicherungstechniken ins Spiel kommen (s.6.4).
Wichtiger könnte es sein, die Erfassungssysteme zu normieren und darin dann
jeweils die beim Ausfüllen von Datenfeldern zu beachtenden Regeln als
kontextbezogene Online-Hilfe bereitzustellen. Hinzutreten muß freilich ein
Lehrwerk, dies jedoch vielleicht besser multimedial und interaktiv: ein Ansatz
dazu ist in Köln bereits in der Erprobung (von Materialien
zur Formalerschließung von Winfried Gödert).
Neben denen, die hauptamtlich mit
Katalogisierungsnormen zu tun haben, gibt es heute sehr viele Stellen, wo
experimentiert und neue Konzepte ausprobiert werden. Hinzu kommt, daß bestimmte
EDV-Systeme mit ihren jeweiligen Besonderheiten die Katalogisierungspraxis
beeinflussen können (um etwa bestimmte Abfragemöglichkeiten und
Anzeige-Eigenschaften zu erreichen!). Innovationen und Sachzwänge verändern die
Sichtweise der Betroffenen in Bezug auf die beim Katalogisieren zu beachtenden
Dinge. Die hauptberuflichen Standardisierer haben manchmal nur ganz bestimmte
(zufällige) oder keine derartigen Praxiserfahrungen.
Links:
Gewiß kann ein Verbundkatalog dem
Endbenutzer viel mehr Fundstellen bieten als ein lokaler OPAC. Doch für den
Normalfall hat der lokale Bestand eine hohe Bedeutung, weil nur dieser
direkt zugänglich ist. Die begrenzte Ergebnismenge eines OPACs hat deshalb in
vielen Fällen einen hohen praktischen Wert, die u.U. viel größere Ergebnismenge
des Verbundes ist dagegen subsidiär, Ergebnisse aus dem Ausland nur selten
interessant.
Denkbar
wäre: Ergebnisse so ordnen, daß Besitz der lokalen Bibliothek oben erscheint.
"Verbundkatalog statt OPAC" – wenn er denn genügend leistungsfähig ist - das hätte auch den Vorteil, daß dann mehr Einheitlichkeit erreicht würde, zumindest innerhalb einer Verbundregion.
Einheitliches
Erscheinungsbild von Bibliothekskatalogen ist aber auf jeden Fall anzustreben:
Bibliotheksbestände müssen deutlicher ins öffentliche Bewußtsein gerückt
werden, und der Katalog ist das Tor zu den Beständen, d.h. zum aufgezeichneten
Wissen der Welt, so wie die Google-Startseite das Tor zu den Internet-Quellen
ist.
Warum dann
nicht gleich der KVK als primärer Nutzerzugang? Weil ein virtueller
Katalog notgedrungen weniger effizient ist als ein realer und weil die lokalen
und die schnell erreichbaren regionalen Quellen, anders als im Internet, für
Endnutzer eine wesentlich höhere Attraktivität haben.
Bis vor 20 Jahren (vor der
Verbund-Ära) mußte man in jeder Bibliothek jedes Buch selber katalogisieren,
d.h. die Zettel dafür selbst schreiben, vervielfältigen und einordnen! Der
Anteil der Eigenkatalogisierung ist auf wenige Prozent geschrumpft, die
manuelle Zettelarbeit ist komplett entfallen, in keinem anderen Bereich wurde
der Arbeitsaufwand so stark reduziert. Das Potential für weitere
Rationalisierung ist deshalb sehr begrenzt: auf Null läßt sich der Bedarf für
qualifiziertes Personal nicht drücken.
In der
Sacherschließung gibt es noch Nachholbedarf an Vereinheitlichung, und viel zu
wenige Titel haben überhaupt Schlagwörter oder Notationen, besonders in
Retro-Daten. Austausch größerer Mengen von Daten wurde erst vereinzelt
praktiziert (Bayern -> BW).
Link
Fernziel ist der alles nachweisende Gesamtkatalog
mit Qualitäten einer umfassenden Bibliographie, aber Einbeziehung von Bestands-
und Geschäftsgangsdaten. Vorerst aber müssen aus praktischen Gründen einige
Sonderkataloge geführt werden. Integration in virtuelle Katalog-Zugangssysteme
à la KVK ist aber schon jetzt weitgehend möglich.
Links
Die Frage ist alt, schon Dewey
beantwortete eine etwas andere Fassung: "Was muß der Katalognutzer tun
können?" Die FRBR (siehe 2.2) beantworten das mit vier Schlagworten: find, select, locate, obtain. Im neuen "Statement of Principles"
kommt noch navigate hinzu. Diese Schlagworte sind zu pauschal,
hier werden deshalb die daraus folgenden Aufgaben des Katalogs etwas
ausführlicher formuliert.
Die hier
folgende Darstellung ist zugleich eine Hinführung zu dem katalogtheoretischen
Modell FRBR, das ansonsten eher abstrakt und datenbanktheoretisch formuliert
ist.
Link:
WAS kann man finden?
Dies hängt
natürlich davon ab, was in den Katalog hineinkommt: Welche Objekte (sog.
"Entitäten") werden katalogisiert (nur Bücher oder auch Beiträge,
Gesamtwerk oder seine Teile oder beides?), wie werden Personen, Körperschaften
(Abteilungen) und Titel (Titeländerung!) definiert?
WIE kann man
es finden?
Nur bei
formaler Suche ist Verläßlichkeit weitgehend
erreichbar, bei sachlicher nicht. Denn
es ist eine Frage der Relevanz: "Ist ein gefundenes Dokument für mein
Thema und meine Absicht relevant?" Das ist subjektiv, das kann nur der
Nutzer beurteilen. Ein wirkliches "relevance ranking" kann es deshalb
gar nicht geben, weil die Absicht des Nutzers dem Programm nicht zugänglich
ist.
Titelaufnahmen sollten immer schon in
knappster Form eine zuverlässige Identifizierung der Objekte ermöglichen. Schon
am Katalog muß erkennbar sein, nicht erst beim Einblick in die Dokumente, ob
man es mit unterschiedlichen Ausgaben oder Versionen zu tun hat. Die
Suchmaschinen-Ergebnislisten lassen dies nicht immer zu, denn sie sind nicht
hinreichend standardisierbar.
Ein "Zusammenführen" muß
unter formalen und sachlichen Aspekten möglich sein.
Ein Set ist eine Teilmenge der Datenbank. Welche
Sets abrufbar sind, ist momentan nirgends normiert: Sachgebiete wären besonders interessant – dazu bräuchte
man eine grobe Allgemeinklassifikation.
Ein Code ist
technisch gesehen nichts anderes als ein Normdatum; jeder Code führt die damit
gekennzeichneten Datensätze zu einer Teilmenge der Datenbank zusammen.
Ein mit Google vergleichbares Ranking
können Kataloge nicht leisten: man müßte dazu die Zitate erfassen und zählen, wie
oft ein Werk in anderen Werken zitiert wird. Der Science Citation Index leistet
dies für Zeitschriftenaufsätze, für Bücher fehlt dazu die Möglichkeit.
Das Ordnen
größerer Erg.Mengen nach Sachgebieten könnte hilfreich sein, aber es fehlt eine
allgemein und flächendeckend angewendete Fachgruppen-Klassifikation. Evtl. kann
man sie ableiten aus den vorhandenen Sachnotationen, wozu auch
Aufstellungsgruppen zählen. Vielleicht ist die Liste der dreistelligen
DDC-Nummern eine brauchbare Basis für eine Fachgruppen-Klassifikation.
Online-Kataloge müssen funktional
integriert werden in alle Abläufe ("Workflows") der Bibliothekswelt.
Das gilt nicht nur, aber ganz besonders für die Benutzungsfunktionen.
Die
Erfassung korrekter und bestgeeigneter URLs oder URNs und deren regelmäßige
Kontrolle ist ein neues Problem für die Führung von Katalogdatenbanken: man
katalogisiert nun erstmals Dinge, die nicht unter der Kontrolle und nicht in
den Mauern der Bibliothek stehen.
Kataloge brauchen Software, mit der die
verschienenen Normen der Typen 2-4 umgesetzt werden können.
Eine
Begriffsnorm wird auch gebraucht für die Ausdrucksweise an der
Benutzeroberfläche.
Wünschenswert,
aber für Online-Kataloge noch nicht existent, wäre eine Norm für die
Präsentation: Wie sollen Titeldaten angezeigt werden (ISBD?), wie soll das
Browsing in Ergebnismengen und Registeranzeigen aussehen? Anders als früher
braucht ein Online-Regelwerk solche Normen nicht mehr zu behandeln, d.h. die
ISBD kann weitgehend entfallen!
Ein IFLA-Papier
zu den Fragen des OPAC-Design gibt es immerhin (s.2.2).
Sehr wichtig
ferner für Interoperabilität (Virtuelle Kataloge): Normierung der
Abfragesprache, und damit auch der Indexierung.
Relationale
Datenbanken kümmern sich nicht um den Inhalt von Datenfeldern, das ist Sache
des Anwenders. Metadaten-Strukturen wurden überwiegend von Datenbank-Leuten
ausgedacht, die sich um den Inhalt der Datenelemente keine Gedanken gemacht
haben.
Metadaten-Anwender
waren häufig keine Bibliothekare und hatten daher keine Regelwerks-Kenntnisse
noch war ihnen die Bedeutung solcher Regelwerke bewußt. Dublin Core ist in
seiner Intention nur eine Begriffsnorm, mehr nicht! Beteiligte
BibliothekarInnen hatten manchmal einfach nicht den Durchblick...
Suchmaschinen
verwenden keine solchen Normen – das ist schlicht unmöglich, weil sie die Texte
so nehmen müssen, wie sie sind.
Katalogregeln sind Inhaltsnormen: sie
regeln, wie die Inhalte der Datenfelder zu bilden ("anzusetzen")
sind.
Die
Wertnormen sind Ansetzungen, die regelgerecht gebildet wurden und die man
entweder in die Dokument-Datensätze kopiert (so bei AACR/MARC üblich) oder mit
denen man die Datensätze verknüpft (so z.B. in deutschen Systemen).
Unsere Kataloge sind unzureichend
durchnormiert, das ist das Hauptproblem. Ursachen dafür sind die lange und
wechselvolle Vorgeschichte der Daten sowie ökonomische Zwänge, denn
normkonformes Handeln kann teuer sein.
Wenn
Normdaten ihr Wirkung richtig entfalten sollen, müssen sie überall verfügbar
und leicht verwendbar sein (s.a. 6.7 "Normdaten-Google")! Davon sind
wir weit entfernt, z.T. aus rechtlichen und z.T. aus organisatorischen Gründen
(fehlende Software und Infrastruktur).
Besonders
sachliche Erschließungsdaten sind zu wenig normiert und zu knapp oder gar nicht
vorhanden. Normierungs- und Reformbedarf ist wohl in der Sacherschließung viel
größer als in der formalen.
Link:
Bei der "Aufwertung" geht
es um das Verbessern von vorhandenen bibliographischen und
Sacherschließungsdaten. Schlechte oder magere Daten z.B. aus Retro-Projekten
können durch Einspeisen von Qualitätsdaten aufgewertet werden. Dazu können
MARC-Daten gehören, und man muß dabei z.B. die Personen- und Körperschaftsnamen
nicht überschreiben, man kann vielmehr die AACR-Namen hinzufügen,
um das systemübergreifende Suchen zu erleichtern.
Etwas
anderes ist die "Anreicherung" (enrichment), siehe 6.4, die
auf eine Erweiterung von Katalogdaten um neue, bisher nicht erfaßte Elemente
zielt.
Damit haben wir eigentlich genug Probleme,
um uns recht lange zu beschäftigen. Trotzdem sollten wir nach dieser
Bestandsaufnahme einmal einige Schritte zurücktreten und über den Sinn und
Nutzen des Ganzen nachdenken, und das im Licht der Einsichten, die wir aus der
heutigen Situation gewinnen können.
Die
klassischen Ziele des Katalogs sind aufs Ganze gesehen wohl nur für einen
kleineren Teil der heutigen Publikationen relevant, und auch dann nur für einen
kleinen Teil der Fragen eines Teils des Publikums (vor allem Philologen,
Historiker, Theologen). Andererseits ist das FRBR-Modell mit den Entitäten
Work/Expression/Manifestation/Item vielleicht für die im Web mögliche Vielfalt
von Dateiversionen besonders geeignet. Aber das sind Vermutungen, die nur durch
qualitative und quantitative Studien zu erhärten wären.
Dagegen sind
die Vorstellungen der Endnutzer von den Leistungen der Kataloge
notwendigerweise sehr heterogen, selten reflektiert, nicht selten weit jenseits
der Möglichkeiten.
Wie auch
immer: Bibliotheken müssen unbedingt dem (unreflektierten) Eindruck
entgegenwirken, das Internet sei eine Alternative oder fast alles sei ja nun
online. Wichtig ist auch das Erscheinungsbild, siehe 8.
"Was
sollen Kataloge" – die bisher vorgestellten Punkte wurzeln tief in der
Tradition bibliothekarischen Denkens. Zwar sind wir auch selber
Katalogbenutzer, doch sind unsere Erwartungen dabei geprägt von den Aufgaben,
die wir zu erfüllen haben, und diese Aufgaben sind von anderer Art als die der
meisten Endnutzer:
Wenn man diese Frage an unvorbelastete Endnutzer stellt, kommt
etwas ganz anderes heraus: die sog. "Zentrale Erwartung" würden
sicherlich fast alle spontan unterschreiben. Sie ist zwar nicht erfüllbar, aber
ein gutes Stück näher als bisher könnte man doch herankommen.
In vielen Fällen wäre jedoch dem Nutzer mit einer Anzeige
wirklich aller relevanten Publikationen wenig gedient - es wären
schlichtweg zu viele! Die Zentrale Erwartung würde dann erweitert auf die
Forderung, die "relevantesten" Dinge sofort ganz oben zu sehen...
Die "Erinnerungsrecherche" (known-item search) wird in
den Erwartungen der Nutzer kaum eine bewußte Rolle spielen und nicht spontan
als besonderes Problem angesehen werden – brauchen tut sie gleichwohl jeder!
Link
Zentrale
Erwartung prinzipiell unerfüllbar
Klassische Titelaufnahmedaten sind
nicht geeignet, der Zentralen Erwartung viel näher zu kommen. Es müssen weitere
Daten hinzutreten, dis bisher nicht erfaßt wurden. Das kann nur mit neuen Methoden
gelingen, die wenig Personaleinsatz fordern: Scannen oder Bezug von
Inhaltsdaten etwa von Verlagen (z.B. auch SwetScan).
Beispiel aus
dem Privatbereich: "Amazon Cover
Search" zum Auffinden von Buch- und CD-daten incl. Textmaterial bei
Amazon und Übernahme in eigene Buchdatenbank.
Eine
"Strukturierung" des eingescannten und in Textdaten umgewandelten
Materials ist u.a. deshalb nötig, damit eine Gewichtung (Ranking) nach formalen
Kriterien stattfinden kann: mindestens müssen Titelwörter ein höheres Gewicht
haben als solche aus dem Inhaltsverzeichnis, diese ein höheres als Textwörter.
Software muß also diese Bestandteile unterscheiden können. Dafür gibt es bisher
keine Norm. HTML oder XML wäre nur die Strukturnorm!
Offen ist, ob und welche Normen für Inhalte und Werte mit solchen Modellen überhaupt umgesetzt werden können, d.h. welches Maß an Konsistenz hergestellt werden könnte.
Für eine linguistisch-lexikalische Analyse muß jede
Sprache separat betrachtet werden, weil dafür ein speziell strukturierter
Thesaurus vorhanden sein und gepflegt werden muß. In Bregenz und im GBV werden
neben deutschen jetzt auch englische Daten verarbeitet.
Wertvoll
wäre es, wenn ein möglichst großer Teil der Daten durch Sachgruppen-Notationen
gekennzeichnet wäre; als gemeinsamer Nenner käme evtl. die 3stelligen DDC-Hauptgruppennummern in Betracht.
Für das Ranking in Katalogdatenbanken kommen
weitere Kriterien in Betracht, die bisher dafür nicht herangezogen wurden:
Stärkere Gewichtung für Dokumente, die in mehreren Auflagen und/oder
Übersetzungen erschienen (Einheitstitel wird gebraucht), Ausleihhäufigkeit,
Umfang. Doch mit wirklicher Relevanz im Sinne des Nutzers wird alles das nie
voll übereinstimmen.
Die Grundidee ist nicht sehr neu:
CIP-Aufnahmen hatten ebenfalls das Ziel, wichtige Angaben direkt in die
Publikationen einzubetten.
In vielen
Fällen ist das "Einbauen" von Metadaten gar nicht möglich, z.B. alles
"Altmaterial", meistens ist aber das Erstellen von getrennten
Metadaten, also Katalogdaten, leichter durchführbar.
Fast immer
sind die Produzenten nicht in der Lage, adäquate Metadaten bereitzustellen. Eingebettete
Dublin-Core-Metadaten in Webseiten müssen stets nachgebessert werden (Projekt
CORC bei OCLC), können aber als Grundlage helfen. Nur: Welche Web-Objekte
lohnen eine Katalogisierung? Welche Angaben braucht man, damit Kataloge dann
einen besseren Dienst leisten können als Suchmaschinen? Diese werten selber die
Metadaten oft gar nicht aus, und zwar wegen des zu beobachtenden Mißbrauchs für
Werbe- und andere Zwecke, z.B. um das Ranking zu manipulieren.
Von
Konsistenz ist die Metadaten-Szene, aufs Ganze gesehen, weit entfernt. Die
Vorstellung, Autoren könnten ihre Publikationen angemessen mit Metadaten
ausstatten, kann man wohl als wirklichkeitsfremd einstufen.
Links:
Bei der Anreicherung geht es darum,
nichtbibliographische Daten mit einzubeziehen, weil die klassischen
Katalogdaten für Entdeckungsrecherchen viel zu mager sind, d.h. zu wenig
Wortmaterial enthalten. Außerdem kommen, anders als in Volltexten, viele Wörter
nur in Flexionsformen (vor allem Genitiv und Plural) vor, an die ein Nutzer oft
nicht denkt.
Beispiel: Landesbibliothek Bregenz.
Dort werden die Inhaltsverzeichnisse gescannt, mit OCR in Text umgewandelt,
dieser Text von einer Firma linguistisch-lexikalisch bearbeitet und das dabei
entstehende Wortmaterial dann in den OPAC-Datensatz eingemischt und mit
indexiert. Der GBV (Göttingen) hat begonnen, ebenfalls solche Verfahren
einzuführen, nachdem der Südwestverbund mit "SWBplus"
schon einige Zeit ähnliche Dinge gemacht hat.
Die Library
of Congress hat eine Arbeitsgruppe, BEAT
genannt (Bibliographic Enrichment Advisory Team), die zahlreiche
Verfahrensweisen untersucht, wie bibliographische Daten angereichert werden
könnten. Viele der dort betrachteten Methoden sind allerdings für das Retrieval
nicht relevant, eher für das Navigieren und als Zusatzinformation für die
Auswahl aus Ergebnismengen.
Links: Vorarlberger Landesbibliothek Bregenz,
OhioLink
Wenn mehr Wortmaterial die Kataloge
bereichern soll, muß das mit einer wohlüberlegten Strukturierung geschehen, die
über MARC und MAB hinausgeht. Ein XML-Schema wird gebraucht, um textliche Inhalte
so zu strukturieren, daß sie sowohl maschinell leicht auswertbar werden als
auch ansprechend präsentiert werden können.
Eine
Datenbank intern mit XML zu gestalten, das sagt sich leicht, aber es ist noch
nirgends überzeugend für Katalogdaten umgesetzt worden. Nichts würde dadurch
automatisch sofort besser! Wirklich notwendig ist nicht mehr als das
Exportieren und Importieren von Daten mit XML-Struktur. Intern kann jede
Datenbank so bleiben, wie sie ist!
Google mit seiner "Meinten Sie
vielleicht ..."-Funktion zeigt ein Beispiel, wie man den Nutzer mit Hilfe
einer Datenbasis unterstützen kann.
Eine
Datenbasis ist nicht unbedingt besser: Generelle Indexierung von
"...graph..." als "...graf..." und ebensolche Umwandlung
der Nutzereingabe würde alle Fälle dieses speziellen Problems abdecken, eine
Datenbasis aller Wörter mit "graph/graf" wäre dagegen erheblich komplexer und immer lückenhaft.
Problem:
Sehr hohe Komplexität bes. bei Mehrsprachigkeit, bei Aufbau und Pflege der
Datenbasis.
Problem:
Katalogübergreifende Zugriffe (Virtuelle Kataloge)
Erschwerend
hinzu kommt die Wirrnis der Orthographie:
Rechtschreibreformer haben nie diskutiert, wie sich die Änderungen auf
Datenbanken auswirken.
In letzter
Konsequenz kann die Sache soweit gehen, daß sowohl die Indexierung der Daten
als auch die Vorbearbeitung der Nutzeranfrage nicht mehr vom Katalogsystem
selbst erledigt wird, sondern von einem eigenen Server, der auch anderswo, z.B.
beim Verbund, angesiedelt sein kann. Dies hätte den Vorteil, daß die
Komplexität der datenbankgestützten Bearbeitung zentral nur an einer Stelle
vorzuhalten und zu pflegen wäre. Man könnte das auch als
"Interface-Outsourcing" bezeichnen.
Das Prinzip des datenbankgestützten
Katalogs ist es, sowohl die Indexierung wie auch die Behandlung der Nutzereingabe
mit Hilfe von geeigneten Datenbanken (Wörterbuch- und Normdateien) zu
unterstützen. Solche Datenbanken können Teil des lokalen Systems sein, sie
könnten aber auch in ganz anderen Systemen liegen.
Hier eine
Skizze für den Bereich der Namenssuche.
Vorstellbar
ist ein Normdaten-Google, wofür die VIAF schon ein Prototyp sein
will: Die Suche fände in einem
Normdaten-Gesamtpool statt (auch Klassifikationen und Thesauri müßten hinein),
Ergebnisse würden dann so präsentiert, daß Einträge im Katalog der lokalen
Bibliothek (oder ein Link dorthin) zuerst erscheinen, dann aber Hinweise auf
Bestände anderswo: Verbund, DDB, LoC. Die Suchanfragen an die jeweiligen
Kataloge würden, ohne daß dies der Nutzer wissen müßte, mit der jeweils
richtigen Namensform bzw. IdNummer weitergereicht.
Ein Problem
ist allerdings die Trunkierung, aber auch die Verbindung mit der Suche nach
Titelstichwörtern, die ja nicht in gleicher Weise normiert werden kann wie
Namen.
Eine
umfassende Anwendung der VIAF für alle Namen ist jedoch sicher utopisch.
Besonders dann, wenn Aufsatzdaten hinzukommen, wird man den Umfang des
Namensmaterials nicht bewältigen können. Problematisch sind jedoch vorwiegend
alte Namen bis etwa zur Renaissance und transliterierte Namen, moderne
europäische ansonsten weniger.
Zur
Illustration: Klassifikations-Testdatenbank,
darin sind Teile der LC-Klassifikation, Dewey, Basisklassifikation und ASB
vereinigt, mit Verlinkung zum allegro-OPAC der UB Braunschweig bzw. Stadtbibl.
Altena.
Das Einbringen
von digitalen Objekten und Internetquellen in Kataloge geschieht noch nicht
nach einem koordinierten Plan. Dazu muß eine Politik erst noch ausgearbeitet
werden, um die vielen technischen Lösungen zusammenzubringen. Wenn man z.B. den
Verbundkatalog als primären Nutzerkatalog etabliert (s. 3.1), dann brauchen
digitale Quellen und Zeitschriftenaufsätze nur dort nachgewiesen zu werden.
Wir wissen viel zu wenig
über das heutige Suchverhalten und die Notwendigkeiten der Endnutzer. Ohne
solches Wissen tappen wir aber im Dunkeln hinsichtlich der Entwicklung der
Katalogisierung.
Ein Normdaten-Google
(s. 6.7) müßte Katalogisierern wie Endnutzern das schnelle und bequeme Suchen
und Blättern in Normdaten aller Art ermöglichen, sowie das leichte Übernehmen
beim Katalogisieren und das sofortige Weiterleiten in Kataloge beim Suchen. Als
Prototyp dafür kann man VIAF betrachten. Außerdem muß man generell das
Erscheinungsbild und die Funktionsweise der Kataloge überdenken und
vereinheitlichen, insbes. auch das Vokabular, mit dem man den Nutzer
konfrontiert.
Bibliotheken und Internet zusammen
umfassen nichts anderes als die angesammelten Einfälle, Erfahrungen,
Erkenntnisse und Erinnerungen aus allen Zeiten und Regionen, in allen Sprachen,
zu allen Themen und von ungezählten Personen dieses Planeten. Das Navigieren in
diesem mehrdimensionalen Universum kann
kein Kinderspiel sein... Aber das Technikvertrauen oder die
Technikgläubigkeit ist anscheinend um so größer, je weniger ein Nutzer wirklich
von der Arbeitsweise von Datenbanken versteht. Es kann nicht unsere Aufgabe
sein, Datenbankkunde zu vermitteln, aber wir sollten durchaus die Dinge nicht
so erscheinen lassen, als sei alles "ganz einfach". Das Nutzen von
Suchsystemen ist heute eine Kulturtechnik, die entscheidend ist für den Erfolg
vieler Menschen bei vielen Aufgaben. Es scheint aber so, daß selbst die Nutzung
simpler alphabetischer Register keine Selbstverständlichkeit ist, auch
Techniken wie Trunkierung, Maskierung und gezielter Einsatz logischer
Kombinationen sind kaum bekannt.
Ein guter Zettelkatalog
war immer mehr als die Summe seiner Zettel: er erleichterte den Überblick und
das Entdecken durch die sinnreiche Anordnung der Zettel und durch
Leitkartensysteme. "Ökonomie der geistigen Arbeit"
ist eine Notwendigkeit für jeden, der mit dem heutigen Überangebot von
Publikationen und Informationsmaterialien zurechtkommen und noch eigene
Leistungen erreichen will. Das Wort von
der "Nationalökonomie
des Geistes" stammt von Adolf von Harnack, 1921. Man hört heute in
diesem Zusammenhang auch den Ausdruck "Wissensorganisation". Es ist
jedoch, genau genommen, nicht das Wissen selbst, das in den Bibliotheken
organisiert wird, sondern es sind Aufzeichnungen, und es geht dabei nicht um
das Organisieren an sich. Ökonomie ist
der sinnvolle Umgang mit knappen Ressourcen. Womit
ökonomisch umzugehen ist, das ist die Zeit und Aufmerksamkeit des Nutzers! Hier
liegt die Knappheit, nicht bei den Beständen an Dokumenten und Aufzeichnungen,
zumal im Online-Zeitalter, das die Verbreitung und den Zugriff technisch enorm
erleichtert hat. Es gilt, die richtigen und qualitätvollen Aufzeichnungen zur
Aufmerksamkeit des Nutzers zu bringen und die notwendige Sichtung mit geeigneten
Methoden zu erleichtern, damit er seine Zeit nicht mit dem Wühlen in großen
Massen zweitrangigen oder irrelevanten Materials vertut. http://www.allegro-c.de/formate/
Material zu Formaten und Regelwerke Zur Theorie der Kataloge und
Suchmaschinen : Vergleichende Tabelle Katalog<->Suchmaschine Katalogisieren - muß das
sein? Für Skeptiker Kleine RAK-Hinführung :
Wie katalogisiert man ein Buch? Eine seltene Sache : Der
Erfolg bei der sachlichen Suche Sachliche Erschließung :
Aufgabe mit vielen Facetten Klaus Graf: Enriched Content
: Viel Material zur Anreicherung von Katalogen (2004) Mit vielen Links zu Projekten weltweit
Pierre Gavin: Die Zukunft der Katalogisierung - Die Katalogisierung der Zukunft (2003) Schwerpunkt Schweiz
Jürgen Kästner: 10
Thesen zur Katalogisierung der Zukunft (2002) Vielerlei Gedanken zur Umgestaltung des
Katalogwesens
Katalogisieren
- muß das sein?
Pierre
Gavin:
Jürgen
Kästner:
8. Das Mitdenken fördern
Wenn wir erst genauer wissen,
wie gesucht wird und was gebraucht wird, sollte mit professioneller Hilfe
(Lern- und Werbepsychologen?) ein Muster-Tutorial entwickelt werden, das in
ansprechender Form notwendiges Wissen vermittelt und neugierig macht auf die
Erkundung von Möglichkeiten jenseits simpler Einwort-Suchmaschinen-Abfragen.
Beispiel
für das Web: die Suchfibel von S.
Karzauninkat, Mit-Urheber des noch sehr neuen Suchdienstes seekport.
Wichtig wäre, solche
Techniken in die Schul- und Hochschulcurricula einzubauen ...
9.
Schlußspruch
Weiteres Material