"Una cosa rara" (Eine seltene
Sache)
ist der Titel einer Oper
(Libretto von da Ponte), die 1786 in Wien Mozarts Figaro vom Spielplan
verdrängte. Vicente Martín y Soler, der Komponist, war zu jener Zeit
viel populärer als Mozart. Der jedoch hatte kein Problem damit, im "Don
Giovanni" das Werk des Konkurrenten wohlwollend zu zitieren
(als Tafelmusik beim Souper). Das heutige Publikum kann die Anspielung
nicht bemerken, weil inzwischen die "Cosa rara" sozusagen "rarissima"
geworden
ist - kaum je wird sie noch gespielt - während "Figaro" und "Don
Giovanni" zu den großartigsten und beliebtesten Opern überhaupt zählen.
Auch und gerade die seltenen
Sachen
will man in Katalogen finden können, nicht nur die, für die sich jeder
interessiert. Deshalb gibt es neben der formalen
Katalogisierung die Sachkatalogisierung, heute sagt man sachliche
Erschließung.
Dieser Text soll keine Einführung
in die Sacherschließung bieten, davon gibt's genug,
er soll nur eine Ahnung von ihrer Notwendigkeit erwecken. Zur
Zielgruppe gehört u.a., wer darüber noch nie nachgedacht hat oder wer
ein
diffuses Unbehagen konkretisieren möchte. Wer dagegen dauernd mit
wachem
Auge in Katalogen sucht, dem braucht man nichts zu erzählen.
"Wenn Sie umfassende Informationen zu
einem bestimmten
Thema suchen,
kann das Netz eine Hilfe sein. Nicht mehr, nicht weniger. Eine
größere
Hilfe bieten allerdings Bibliotheken. Eine derartige Konzentration
an Wissen gibt es nicht im Netz. Wie lange brauchen Sie um ein Buch
durchzublättern, die Seiten zu überfliegen und einige Dutzend Bilder
zu betrachten? Wie lange dauert das im World Wide Web? Und was kostet
es?"
|
Man könnte weit ausholen,
aus der Tiefe der Geschichte schöpfen (schon die antike Bibliothek in
Alexandria hatte einen Sachkatalog) und dann abstrakt fragen, was denn
heute das Paradigma der Bibliothek sei. Wir fragen hier nicht
paradigmatisch
(das kann woanders geschehen), sondern ganz
pragmatisch:
Was
wird
denn erwartet?
Sind Sie ein naiver Katalognutzer?
(Oder -nutzerin, das läuft auf's selbe hinaus.) So nennen wir einfach
mal solche, und das ist nicht abwertend gemeint!, die noch nicht durch
eine Theorie vorbelastet sind. Naive Nutzer, darauf darf man hohe
Wetten
abschließen, sind sich völlig einig in der Erwartung (siehe oben das
Zitat aus der "Suchfibel"), was ihnen ein Katalog bieten müsse:
"Der Katalog
soll mir, wenn ich ein Thema habe, dazu alles Vorhandene auswerfen."
(Finden Sie nicht auch?)
Weil sich darin die Nutzerschaft
so bemerkenswert einig ist, könnte man von der "Zentralen Erwartung"
reden,
um einen griffigen Terminus dafür zu haben.
Betrachtet man Zugriffsprotokolle
von Online-Katalogen, um zu sehen, was die Nutzer so alles eintippen,
findet
man eine klare Bestätigung (wie auch bei Befragungen): eine sehr große
Zahl der Anfragen sind ganz offensichtlich thematisch gemeint, nicht
formal
(d.h. nach Verfasser oder Titel). Zuweilen werden da wirklich mit
beachtlicher
Technikzuversicht richtige Fragen eingetippt. Unbestreitbar
wird daher die thematische Suche gebraucht. Diskutieren kann man
nur,
wie man es anstellen soll.
Diese Zentrale Erwartung ist
natürlich
alt und hat sich auch längst niedergeschlagen in Katalogtheorien und
-prinzipien.
Charles A. Cutter, Begründer des amerikanischen Katalogisierungswesens,
formulierte 1876:
"A patron should
be able
to find an item if:
the author is known, OR
the title is known, OR
the
subject
is known."
Und das allerneueste "Statement of
Principles",
formuliert und diskutiert im zuständigen Gremium der IFLA, fordert
unter
anderem vom Bibliothekskatalog, er solle
"all
resources
on a given subject"
zusammenführen, was ungefähr
dasselbe besagt.
Resources?
Dieser neue Terminus (verdeutscht
mit "Ressourcen") wurde eingeführt, um einen Oberbegriff zu haben für
alles, was Bibliotheken katalogisieren. Das sind ja längst nicht mehr
nur Bücher und Zeitschriften. Das neue Wort ist unnötig. Man kann
genausogut
"publications" bzw. "Veröffentlichungen" sagen und diesen Begriff nun
einfach ein wenig weiter fassen als bisher üblich: Alles,
was einer Öffentlichkeit zugänglich gemacht wird, ist eine
Veröffentlichung
- fertig. Denn es wäre doch erfreulich, wenn ein "Statement of
Principles",
also etwas sehr Herausgehobenes, sogar dem naiven Nutzer ohne weitere
Erklärungen
einleuchten würde. Man könnte also sagen:
"Der
Katalog
soll alle vorhandenen Veröffentlichungen zu einem Thema nachweisen"
und das ist wieder unverblümt
unsere
Zentrale Erwartung. Na gut, "Veröffentlichung" wird bisher nicht mit
Handschriften,
Papyri oder sonstigen Unikaten assoziiert, die in Bibliotheken
vorkommen
und katalogisiert werden können. Erstens macht das aber nichts.
Zweitens
könnte man auch von "Aufzeichnungen" reden, wenn man wollte, das wäre
zutreffend, nur weniger gebräuchlich. Das Publikum wird sich wohl, wie
immer, für Feinheiten der Definition nur sehr am Rande interessieren.
Aber nun schau'mer mal, denn
dafür
sitzen wir hier beisammen, ob man diese Zentrale Erwartung erfüllen
kann oder ob vielleicht hier oder da Abstriche zu machen sind.
Skeptiker
werden natürlich fragen: "Gibt es hier Handlungsbedarf? Mit moderner
Software sollte man doch auch ohne teuren Personalaufwand eine ganze
Menge
rausholen
können!"
1973 wurde in einer Studie zum
Grenzbereich
zwischen Sprach- und Informationswissenschaft trocken und ohne
Begründung
festgestellt, die formale Katalogisierung sei "keine wirkliche
Herausforderung"
(Karen Sparck-Jones & Martin Kay: Linguistics and information
science.
Deutsch: Linguistik und Informationswissenschaft, 1976, ISBN
3-7940-2653-5).
Schon lange war aber die sachliche Erschließung als eine ungleich größere Herausforderung erkannt. Dies führte in Deutschland sogar zu
einer
höheren Eingruppierung derjenigen, Fachreferenten genannt, die den Job
machen, und das will wirklich was besagen.
Damit kommen wir schon
zu
der schlechten Nachricht: Wenn man nur
"formal"
katalogisiert, also mehr oder weniger die vorhandenen Titel und
sonstigen
Angaben von den Titelblättern sorgfältigst abschreibt (oder vielleicht
einscannt) und sonst nichts, dann reicht das hinten und vorne nicht, um
die Zentrale Erwartung zu erfüllen.
Die besagte Studie folgerte das aus
Versuchen
mit automatischer Stichwort-Indexierung. Man machte damals, z.B. zuerst
in Bochum, sog. KWOC-Kataloge. Die waren nichts anderes als
ausgedruckte
Stichwort-Register, wobei man neben jedem Wort sofort die Titel sah, in
denen es vorkam, der Platz des Stichworts darin durch *** markiert. Man
untersuchte, ob mit solchen vollautomatisch erstellten Katalogen
zutreffende
und zuverlässige Resultate erzielt werden können bei der sachlichen
Suche.
Das bedeutet: bei einer Abfrage soll nur wenig unnützes Zeug mit
rauskommen
und nicht zu viel Wichtiges darf fehlen (Jargon: "precision" und
"recall"
sollen hoch sein). Das Ergebnis war enttäuschend, obschon unbezweifelbar der Stichwortzugriff dem Nutzer eine wesentlich
höhere
Lebensqualität beschert im Vergleich zu den Zettelkatalogen, wo man
Verfasserwerke
nur unter dem Verfasser finden konnte. Doch es nützt vorwiegend der
formalen
Suche, d.h. dem sog. "known-item search" (Titel schon bekannt). Es geht
uns nun aber um den "subject search", wo man eben hinter einem Thema
her
ist, nicht hinter einem schon bekannten Titel.
Die
schlechte
Nachricht bedeutet: ohne zusätzliche Arbeit wird's nicht besser.
Die 70er Jahre sind aber lange vorbei. Vielleicht ist heute alles ganz
anders? Wir haben viel leistungsfähigere Systeme, wir haben künstliche
Intelligenz!
Nun gut, um was für Probleme
geht
es? Einige oder alle sind dem langjährigen Katalognutzer schon mal
begegnet:
Probleme
bei der Stichwortsuche in Katalogen
... wobei mit "Stichwort"
diejenigen
Wörter gemeint sind, die auf den Titelseiten der Bücher stehen! Denn
eine große Menge der Katalogdaten enthält nichts anderes als das, man
hat also von dieser Grundlage auszugehen. Und zwar auch und gerade
dann, wenn
man
Sacherschließung für unzeitgemäß und verzichtbar oder unbezahlbar hält.
A. Sprachgemisch
Wenn man nur die Titelblätter
abschreibt
(oder wenn man sie scannen würde), hat man ein Gemenge aller
vorkommenden
Sprachen. Solange man im Einzelfall nur deutsche oder nur englische
Texte
sucht, ist das OK, aber wenn man beides oder noch mehr will, gilt es
jedesmal
dran zu denken, die jeweils anderen Fachbegriffe auch mal einzutippen,
also
z.B. "beetle" statt "Käfer". Daran könnte auch eine automatische
Übersetzung
nicht viel ändern, denn deren Leistungen sind auch heute noch viel zu
begrenzt, und die Wissenschaften schöpfen ständig neue Begriffe, die
noch in keinem Wörterbuch stehen.
B. Begriffsvielfalt
Ein Thema wird in Titeln nicht
immer
mit demselben Wort oder Ausdruck benannt. Das ist sowieso klar, wenn
man
Materialien in mehreren Sprachen hat, aber auch wenn's nur Deutsch ist,
erlebt man alles mögliche. Beispiele: Ein Werk über Schmetterlinge kann
den Titel "Tagfalter" tragen, ein Buch über Käfer kann im Titel auch
"Coleoptera" sagen oder "Bodenarthropoden" (Synonymenproblem). Wenn's
speziell
um den Fichtenborkenkäfer geht, kann da auch "Buchdrucker" stehen.
Wenn es um Verkehrsampeln geht, kann im Titel auch
"Lichtzeichenanlagen" stehen.
Andererseits:
wenn im Titel "Käfer" steht, kann damit auch ein bekanntes Auto gemeint
sein. Dieses sog. "Homonymenproblem" ist gar nicht selten und sorgt für
besonders viel Unmut.
Sonderproblem: Namen in
Titeln!
Je nach Sprache werden die Namen von Personen manchmal sehr eigenwillig
geschrieben. Sucht man Literatur über Nikolaus Kopernikus, kann es im
Titel auch "Nicolaus Copernicus" heißen oder "MikoĊaj Kopernik" oder
noch anders. Die Stadt München heißt in englischen Titeln "Munich", in
italienischen "Monaco", usw. usf. Im Einzelfall ist es unmöglich, die
evtl. auftretenden Formen alle mit einer Abfrage zu erschlagen. Und
weil
Namen ja oft identisch mit ganz normalen Wörtern sind, oder Personen so
heißen wie Städte oder Länder, verschärfen sie das Homonymenproblem.
C. Sprachwandel
Begriffe veralten oder werden
"politisch inkorrekt", der Sprachgebrauch wird ständig in Bewegung gehalten.
Beispiele: "Globalisierung"
hieß vor 1998 "Internationalisierung", "Gender" haben die
"Geschlechter" abgelöst, "Biodiversität" ersetzt "Artenvielfalt", "Indianer" laufen
jetzt in Nordamerika unter "First Nations", "Negroes" wurden erst zu
"Blacks", dann zu "Afro-Americans", dann zu "African Americans",
"Behinderungen" werden
durch
"Beeinträchtigungen" verdrängt (im Englischen "handicaps" durch
"challenges"),
und so geht das laufend weiter. Aber die Titel der älteren Bücher kann
man natürlich nicht laufend dem Zeitempfinden anpassen - man darf sie
vielmehr gar nicht ändern. Vielleicht braucht man sie nicht mehr, aber
jedenfalls findet man sie nicht mehr, wenn man nur mit den neuen
Wörtern
sucht. Es sei denn, man hat alles verschlagwortet und arbeitet ständig
an den Schlagwort-Normdaten ...
D. Sprachspielerei /
Metaphorik
/ Irrelevanz
Nicht selten findet der Verfasser
oder der Verlag es opportun, eine Titelformulierung zu wählen, die
modern,
anziehend oder witzig erscheinen soll, für sich allein aber nicht zu
erkennen
gibt, um was es geht (Metaphernproblem). Das ist kein neues Phänomen!
G.E. Lessing gab den Rat, "Ein Titel muß kein Küchenzettel sein. Je
weniger er von dem Inhalte verrät, desto besser".
Beispiele: "Rot-Gelb-Grün"
für eine Darstellung über Verkehrsampeln, "The agony and the ecstasy" -
ein biographischer Roman über Michelangelo, "Eins zu einer Million" für
ein Buch über Manipulation in der Kartographie, "Ein Planet wird
geplündert"
für ein Werk über gedanken- und rücksichtslose Ressourcenverschwendung
und Raubbau an den natürlichen Reserven. Manchmal steht wenigstens im
Titelzusatz,
um was es eigentlich geht: "Im Raume lesen wir die Zeit : über
Zivilisationsgeschichte
und Geopolitik". Auch der Titel dieses Papiers ist so ein Beispiel.
Weniger auffällig, aber
unvermeidlich:
Nicht jedes Wort in einem Titel sagt, für sich genommen, etwas über das
Thema. "Meerwasserentsalzung und ihre Energieversorgung" ist kein Buch
zum Thema Energieversorgung. "Sport und Umwelt : Fachtagung Hannover
1987"
hat weder mit dem Thema "Sport in Hannover" noch mit "Umwelt von
Hannover"
zu tun.
Bei einer Volltextsuche wiegt
dieses
Problem noch viel schwerer: oft stehen da irgendwo Wörter, die mit dem
Thema nichts zu tun haben. In diesem Text zum Beispiel stehen die
Wörter
"Mozart" und "Kirchenmusik". Man wird ihn bei Google in der
Ergebnismenge
finden, wenn man "mozart kirchenmusik" eingibt. Auch bei einer Suche
nach
"Martín y Soler" wird man dieses Papier finden, aber nicht finden
wollen. Andererseits könnte ein
Volltextsuchsystem diejenigen Wörter höher gewichten, die mehrfach im
Dokument vorkommen oder in Überschriften, nah am Beginn des Textes oder in anderen vermutlich
bedeutsamen Teilen auftreten. Ein Katalog kann das nicht tun - er hat die Volltexte ja nicht.
E. Sprachliche Eigenheiten
Zuerst die Flexionsformen: Wörter
kommen auch mal im Genitiv oder im Plural vor - für ein Suchsystem sind
die Unterschiede nicht trivial. Im Deutschen und Englischen kann man
das oft durch Trunkierung abfangen, aber nicht immer: "Ärzte" findet
man
nicht, wenn man nach "arzt?" sucht. In anderen Sprachen kann es noch
viel
schwieriger sein, z.B. in den slawischen: Da machen Wörter mitunter
ganz
sonderbare Verwandlungen durch.
Zweitens gibt es die
Zusammensetzungen.
Im Englischen seltener als im Deutschen, aber "firewood" findet man
nicht,
wie auch "Brennholz", wenn man nach "wood" sucht bzw. nach "Holz" oder
"Holz Energiequelle". Das Deutsche hat mit seiner Eigenheit der
bedenkenlosen
Verkuppelung von vorher nie zusammen gesehenen Wörtern
("Turbokapitalismus",
Massenarbeitslosigkeitsproblem", "Geschäftsphilosophie") ein
beispielloses
Potential wundersamer Wortvermehrung. Der jeweils zweite (dritte,
vierte)
Teil einer Zusammensetzung aber ist in der Stichwortsuche nicht als
solcher
auffindbar. Wer "käfer" eintippt, findet keinen Titel, in dem
"Laufkäfer",
"Sandlaufkäfer", "Schwimmkäfer", "Kornkäfer", "Kartoffelkäferplage"
usw. usf. steht. Wenn man das wollte, wäre eine "Linkstrunkierung"
nötig
oder eine Volltext-Zeichenkettensuche, was große Datenbanken aber nicht
anbieten können.
Im Englischen, aber auch in den romanischen und slawischen Sprachen,
gibt
es nur relativ wenige Zusammenschreibungen bei lange bewährten
Verbindungen,
Neologismen dagegen halten immer Distanz. Im Deutschen ist,
katalogtechnisch
gesehen, das Ganze weniger als die Summe seiner Teile. In anderen
Sprachen
ist dagegen ein Kompositum als solches nur zugänglich, wenn die
Software
eine Phrasensuche machen kann.
Andererseits hat die
Rechtschreibreform
manche ehemals besiegelten Verbindungen mutwillig zerteilt: jetzt haben
wir neben "nichtlinear" und "nichtrostend" auch "nicht linear" und
"nicht
rostend". Versuchen Sie mal, beides mit einem Suchbefehl zu
packen!
Na, und die Bindestrich-Wörter!
Neben "Mittelalterarchäologie" gibt es auch "Mittelalter-Archäologie".
Es kommt auf die Software an, ob man und wie man beides zugleich finden
kann. Das erste kommt aber bei Eingabe von "mittelalter archaeologie"
auf
keinen Fall raus, und Titel wie "Archäologie des Mittelalters" oder
"Mittelalterliche
Archäologie" entziehen sich dann ebenfalls.
Das Deutsche verfügt ferner über
einen Sparmechanismus, indem es Verkürzungen bei Aufzählungen erlaubt:
den Titel "Sprach-, Schreib- und Leseleistung in der Mittelstufe"
findet
man nicht, wenn man nach "Schreibleistung" oder "Sprachleistung" sucht.
Bei der Suche nach "Rechtsphilosophie" geht einem der Titel "Rechts-
und
Staatsphilosophie" durch die Lappen. "Volksmusik" versagt bei dem Titel
"Volks- und Kirchenmusik", mit "Krisenmanagement" entgeht einem das "Krisen- und Insolvenzmanagement" - usw. usf.
F. Rechtschreibwandel
Verschärft durch die jüngste Rechtschreibreform,
doch auch früher schon spürbar: Wörter sind keine auf ewig
unwandelbaren
Buchstabenfolgen. Sie sind Lautfolgen, und deren
Verschriftlichung
kann sich eben wandeln, selbst wenn sich die Laute nicht wandeln. So
gab
es vor 1900 noch Thiere, Thore, Thaten usw., auch in Buchtiteln,
"Temen",
Tesen" und "Teater" hingegen gestattet auch die Rechtschreibreform noch
immer
nicht.
Andererseits: auch wenn
sich die Laute wandeln, wird meistens nicht sofort die Schreibung nachziehen.
Extrem
ist das im Englischen. Computerprogramme aber, und das ist der
Knackpunkt,
suchen stets NUR nach Zeichenfolgen, NICHT nach Lautfolgen. Gewiss, es
gibt da sog. "Soundex"-Algorithmen. Die funktionieren aber nur in
einsprachigen
Umgebungen. Das ist kein Patentmittel für Kataloge: in Katalogdaten
kann eine Software noch nicht einmal erkennen,
in welcher Sprache denn der Titel formuliert ist!
In manchen Fällen, wie beim
"Potenzial",
kann eine Maskierfunktion helfen: "poten?ial" kann so auch zugleich das
"Potential" finden. Aber wer denkt beim Eingeben immer an sowas, wer
hat
die verschiedenen Schreibungen immer präsent - das ist der Punkt! Beim
neuen "selbstständig" statt des alten "selbständig" würde auch die
Maskierung
nicht helfen.
Die Reform sollte das
Erlernen der
Orthographie erleichtern. Den Umgang mit Katalogen erschwert sie, denn
dabei müssen im Ernstfall beide Schreibungen berücksichtigt,
also auch erinnert werden. Software
(eingebautes
"Wörterbuch") könnte hier einige Unterstützung leisten,
perfekt zu lösen ist das Problem aber nicht, wenn man an die immer
neuen
Wortzusammensetzungen
denkt, die im Deutschen dauernd hervorsprießen. Das "-potential"
kann
sich an fast jedes Substantiv anhängen, wobei Genitiv und Plural
natürlich
auch noch vorkommen können. Die Rechtschreibreform verlangt, mal
auf den
Punkt
gebracht, vom Katalognutzer noch mehr
Krimskrams-Wissen
als vorher. Und das bis ans Ende seiner
Tage,
denn die alten Titel können und dürfen wir nicht ändern.
Relevant sind z.B. auch die
Unterschiede
zwischen der britischen und der amerikanischen Orthographie. Hier
schreibt man "colour", dort "color", das weiß jeder. Nicht so sehr bekannt: die
Farbe
Grau schreibt sich hüben "grey" und drüben "gray". Im GBV kann man finden: 1711 mal "grey" und 2603
mal "gray" (wobei der Name "Dorian Gray" (Homonym!) nicht mitgezählt
wurde, aber mit herauskommt).
G. Eingabefehler
Wo Menschen Daten erfassen, da
passieren
Tippfehler, das ist klar. Sehr hoch ist deren Zahl nicht,
vernachlässigbar
aber auch nicht. Es gibt sogar eine große Sammlung
von beobachteten Schreibfehlern in Katalogdaten.
Rechtschreibkorrektur-Software einsetzen? Sowas ist immer
auf eine bestimmte Sprache geeicht, Bibliotheken erwerben aber Material
in mehreren Sprachen, außerdem sind die Titel von Forschungsliteratur
gespickt mit neuen und ungewöhnlichen Wörtern, die eine
Rechtschreibsoftware
noch nicht kennen kann. Scannen wäre keine Abhilfe, auch bei
OCR-Software
passieren Fehler. Zumal bei der großen typographischen Vielfalt gerade
auf den Titelseiten.
H. Granularität
Wenn wir mal sehr blauäugig so tun als seien
die genannten Probleme alle nicht so wichtig und nicht sehr
zahlreich, so bleibt mindestens noch eines übrig, und zwar ein ganz dickes
Kaliber:
Titel sind viel zu kurz. Sie verraten zu wenig. Wenn nur das eingegeben
wird,
was auf den Titelseiten steht, dann ist das sehr oft völlig
unzureichend
für die thematische Suche. (Problem D. ist, so gesehen, nur ein
Sonderfall.)
Ein Handbuch "Beetles of Europe" mag in ausführlichen Artikeln über
tausend
Käferarten beschreiben, keine einzige davon würde man aber als solche
im Katalog finden, auch das Handbuch selber findet man nicht mit dem
Suchwort
"Käfer", denn im Titel steht ja "Beetles".
Umgekehrt: Sucht man "beetles
europe", findet man nur Dokumente mit genau diesen Wörtern im Titel,
nicht aber solche, die den Namen irgendeines europäischen Käfers oder
einer Käferfamilie im Titel haben.
Jeder kann sich leicht unbegrenzt viele solche Beispiele ausdenken.
Steht nur ein Oberbegriff im Titel, findet man das Dokument nicht mit
irgendeinem Unterbegriff - und umgekehrt.
Die formale Katalogisierung
betrachtet nur das physische Objekt als Einheit, egal wie dünn oder
dick
es ist - Gehalt und Umfang spielen dabei keine Rolle, nur der Titel,
der
vorne draufsteht. Die AACR-Praxis nimmt sogar oft nur den Gesamttitel
eines mehrbändigen Werkes auf und schreibt die Titel der Bände höchstens
in eine Fußnote.
I. Wechselwirkungen
Bei vielen Abfragen wird eine
Wortkombination
eingegeben, also nicht nur eins, sondern zwei oder mehr Wörter. Ist
eines
davon, oder mehr als eines, von einem der genannten Probleme betroffen,
kann erst recht die Kombination nicht zu einem vollständigen Ergebnis
führen.
Ernüchterndes
Fazit:
Die Zentrale
Erwartung ist unerfüllbar, wenn man keinen erheblichen Aufwand treibt.
Man sollte, im Gegenteil, dem Nutzer sagen: "Wenn der Katalog zu einem
Thema scheinbar
nichts hergibt, heißt das noch lange nichts - wir könnten trotzdem eine Menge haben! Und
wenn
er was hergibt, dann aufpassen: vielleicht ist noch mehr und
noch besseres da." Jede Bibliothek hat Material zu viel mehr Themen, und mehr zu
fast
jedem einzelnen Thema, als der Katalog zu erkennen gibt. Wer die
aufgezählten
Probleme verstanden hat, wird dies nicht als Bankrotterklärung
auffassen,
sondern als leider unvermeidliche Konsequenz der Gegebenheiten.
Nebenbei:
Wenn der Online-Katalog über Register
verfügt, in denen der Nutzer blättern
kann,
können die Probleme E, F und G dadurch in vielen Fällen etwas
entschärft
werden. Hat man "Millenium" eingegeben, wird man im Register sehen: aha,
die richtige Schreibung ist "Millennium", aber auch die falsche
Schreibung
kommt ein paarmal vor. Oder: neben der "Brennessel" gibt es auch die
"Brennnessel". Ohne Registereinblick (sog. Freischütz-Suche)
erhält man nur eine der beiden Ergebnismengen, ohne Hinweis auf die
andere.
Was die anderen Probleme betrifft, helfen Register wenig. Andererseits:
Die Probleme B., D. und E. treten bei Suchmaschinen weniger leicht auf,
wenn
die Volltexte indexiert werden. Denn Synonyme, andere Schreibweisen
(auch
Plural, Genitiv u.a.) bzw. alle wirklich wichtigen Begriffe treten mit
hoher Wahrscheinlichkeit irgendwo im Text auf, wenn schon nicht im
Titel.
Vor allem aber das für Kataloge besonders schlimme Problem H. löst sich
deswegen
bei Suchmaschinen beinahe, wenn auch nicht ganz, in Wohlgefallen auf!
Will
man nun schließen, Bibliotheken sollten halt eben Suchmaschinentechnologie
einsetzen, dann ist das so lange müßig, wie wir die Volltexte
gar nicht
zum Indexieren zur Verfügung haben. Und das wird noch recht lange so
sein.
Zwischen einem Wort und
seiner
Bedeutung
gibt es keinen zwingenden Zusammenhang - das hatte schon Aristoteles gemerkt -
und Computer können nur nach Wörtern suchen (genauer: nach Zeichenfolgen),
also nicht nach Bedeutungen.
Das erklärt die ganze Kalamität,
die Beispiele hätten wir uns auch sparen können. Eine Sacherschließung,
das wird jetzt aber umso klarer, wird nur wirkungsvoll sein und der Zentralen Erwartung etwas näher kommen, wenn sie bedeutungsträchtige
Angaben
hinzufügt.
Was kann man denn bloß tun?
Da gibt es im Prinzip zwei
Möglichkeiten: (in einem anderen Papier steht
dazu noch mehr)
- Schlagwörter : Das
sind zusätzliche
Wörter, aber mit Überlegung nach genauen Regeln
eingegeben
"Kontrolliertes Vokabular" sagt
man dafür auch. Dabei versucht man, die Probleme A. bis F. zu
auszuschalten,
wobei C. und F. aber trotzdem Ärger machen können. In Deutschland
verwenden
viele Bibliotheken die "Schlagwortnormdatei"
(SWD), im englischen Sprachbereich arbeitet man mit den "Library
of Congress Subject Headings" (LCSH). Beide passen nicht sehr gut
zusammen,
eine automatische Umsetzung ist höchstens sehr unvollkommen machbar. Die eine bevorzugt den Singular, die zweite
den Plural eines Wortes - das gehört zu den kleineren Problemen. Beide enthalten mehrere 100.000
geprüfte,
durchdachte, normierte Begriffe, die man als Schlagwörter verwenden
kann.
Die Qualität, die Aktualität und der Umfang dieser Begriffe sind je
nach
Fachgebiet verschieden, doch an beiden Systemen wird ständig
gearbeitet.
Kleines Beispiel: Das "Homonymenproblem" wird durch Zusätze gelöst:
z.B.
"Käfer <Kraftfahrzeug>" bzw. "Beetle automobile". Wenn das
Schlagwortsystem
die Schlagwörter nicht einfach nur als lange Liste aufreiht, sondern Querverbindungen sichtbar macht (Oberbegriffe,
verwandte
Begriffe), spricht man von einem Thesaurus, und zwar von einem
Hierarchischen
Thesaurus, wenn die Beziehungen zwischen Ober- und Unterbegriffen
umfassend
dargestellt sind. Die Schlagwortnormdatei ist kein hierarchischer
Thesaurus.
Z.B. gibt es beim "Käfer" keinen Hinweis auf den Oberbegriff "Insekt",
beim "Laufkäfer" keinen Hinweis auf den Oberbegriff "Käfer".
- Symbole,
die für
Begriffe stehen,
z.B. Zahlen oder Codes, auch Notationen genannt
Klassifikationen
oder Systematiken sind sprachunabhängig, ein enormer Vorteil,
brauchen
aber viel Aufwand bei Erstellung, Betreuung und Anwendung. Eine
universelle,
feingegliederte und zugleich aktuelle Systematik existiert nicht.
International
ist die Dewey Decimal
Classification
(DDC) die gebräuchlichste, in Deutschland wohl die Regensburger
Verbundklassifikation, die meistens mit der Aufstellung der Bücher
zusammenhängt.
Beispiel: In der (leider
sehr veralteten) Universellen
Dezimalklassifikation gibt es die Notation 595.7 für Insekten.
Diese
hat 10 Untergruppen, darunter 595.76 Käfer und 595.78 Schmetterlinge.
Diese zerfallen in weitere Untergruppen, z.B. 595.762.12 "Laufkäfer".
Der Auto-Käfer hätte eine ganz andere Nummer, 629.114.6, kann also
nicht
verwechselt werden.
Die in
Deutschland
gebräuchlichen Klassifikationen
sind leider schon auf ihrer
obersten
Stufe (Hauptklassen) wenig kompatibel. Leser wissen es zu schätzen, wie
man sich in US-Bibliotheken immer schnell zurechtfindet, weil sie alle
dieselbe Klassifikation einsetzen. Doch bezieht sich
das
nur auf die Aufstellung der
Bücher, ein Katalogzugriff
nach Notationen
ist dort wenig bekannt.
Weil es keine aktuelle
feingegliederte
Klassifikation gibt, hat der GBV von Anbeginn eine zwar moderne, aber
recht
grobe Klassifikation eingesetzt, die sog. Basisklassifikation,
zuerst entwickelt in den Niederlanden. Sie hat wenig mehr als 2000
Notationen
- trotzdem ist es nicht zu schaffen, damit wirklich alle Datensätze zu
kennzeichnen. Im Prinzip taugt eine grobe Klassifikation aber noch für
andere Aufgaben: fachliche Auszüge aus der Datenbank, sachlich
geordnete
Listen, Einschränkung großer Ergebnismengen nach einem Fachgebiet,
statistische Auswertungen (auch für Erwerbung und Ausleihe).
Solchen
Zwecken dient auch die Sachgebietsgliederung
der Deutschen Bibliothek. Sie wird 2004 abgelöst durch eine Liste, die
von der Dewey Decimal Classification abgeleitet ist. Es wäre schon viel
gewonnen, wenn in größeren Katalogen ein signifikanter Teil der
Titeldaten einheitlich mit Sachgruppen-Notationen
ausgestattet wäre,
doch auch davon sind wir weit entfernt.
Schlagwörter und
Klassifikationen
sind weit verbreitet, doch allzu viele Bücher in unseren Katalogen
haben
weder das eine noch das andere. Zwischen den Bibliotheken und Verbünden
und erst recht international gibt es große Unterschiede in den
verwendeten
Mitteln und Methoden. Eine Metasuche nach Schlagwörtern oder
Systemstellen
ist daher über Systemgrenzen hinweg kaum sinnvoll. Von der Idee her ist
beides brauchbar, praktisch und de facto jedoch ist die Zentrale
Erwartung
damit nicht zu erfüllen, weil eben nur ein Teil aller Bücher
verschlagwortet
oder systematisiert ist und dann auch noch nach unterschiedlichen
Systemen.
Nur eine energische, verbundübergreifende, konzertierte, arbeitsteilige
Aktion aller Bibliotheken könnte dem vielleicht abhelfen...
Aber
selbst wenn es zu einer solchen Aktion käme: das Problem der
Granularität
bleibt bestehen! Soviel Zeit wird insgesamt nicht aufgewendet werden
können,
alle Bücher gründlich genug von innen zu betrachten, um zu jedem Thema
(und was ist überhaupt ein "Thema"?) dann ein Schlagwort oder eine
Notation geben zu können - manche dickleibigen Werke hätten dann hunderte
oder tausende von Notationen oder Schlagwörtern nötig. Eine
Klassifikation
oder ein hierarchischer Thesaurus
könnte jedoch auf neue Weise helfen: die Software könnte den Nutzer von
einer untergeordneten Stelle, z.B. "Hirschkäfer" zu einem Oberbegriff,
also "Käfer", hinführen, und die zugehörigen Daten hervorzaubern. Die
Dezimalklassifikation ist hierfür theoretisch bestens geeignet.
Praktisch
ist sie leider zu veraltet und zu wenig im Einsatz. Die in Teilen sehr
ähnliche Dewey Decimal Classification liegt nur auf Englisch vor.
Momentan
wird sie in einem Projekt
übersetzt,
aber vorerst hat man davon noch nichts - 2005 soll die Übersetzung
erscheinen.
Neuere Möglichkeiten
Schlagwörter und Notationen, das
sind alte Methoden und sie sind mit Personaleinsatz verbunden. Deshalb
sind ja die Katalogdaten zu einem allzu großen Teil frei von solchen
Angaben.
Was kann man heute tun, um den manuell/intellektuellen Aufwand zu
vermeiden
oder stark zu reduzieren, um eine wirklich flächendeckende,
einheitliche
Sachbehandlung aller Veröffentlichungen zu erreichen?
Fremddaten übernehmen, klar, aber
das verschiebt das Problem nur nach woanders, wo es auch nicht besser
gelöst
werden kann.
Zwei Vorgehensweisen bieten sich
an und sind auch schon erprobt worden, z.B. in den Projekten Milos
(Düsseldorf) und Osiris
(Osnabrück). Ein überzeugender Durchbruch, ein flächendeckend
anwendbares
Verfahren, steht allerdings noch aus.
Einspeisen von mehr Text
... als da sind
Inhaltsverzeichnisse
der Bücher oder auch noch andere Teile, wobei man die rechtliche
Seite im Blick behalten sollte. Besonders für Aufsatzsammlungen
(Festschriften,
Tagungsbände) kann das sehr viel bringen, besonders hinsichtlich des
Problems der Granularität. Beispiel: Vorarlberger
Landesbibliothek.
Die dort verwendete Methode, IntelligentSEARCH,
hat ein hohes Potential.
Im GBV werden viele
Spezialzeitschriften
für die Online-Contents-Datenbank
in den kooperierenden Bibliotheken ausgewertet, indem man die
Inhaltsverzeichnisse der neuen Hefte scannt und dieses Wortgut
retrievalfähig macht.
Mehr Text, das kann auch heißen:
Klappentexte, Abstracts, Annotationen, Vorworte, Rezensionen, die
ersten
paar Seiten. Darin steckt relevantes Wortmaterial, das für üppigere
Resultate
sorgen könnte (natürlich auch für falsche, siehe Problem D). Nicht nur
das, sondern die Anzeige solcher Texte, und als Zugabe noch das
Umschlagbild,
kann dem Nutzer auch sehr bei der Auswahl helfen, um die für ihn
relevanten
Texte schneller zu erkennen. Der klassische Katalogdatensatz allein
gibt
auch dafür sehr oft zu wenig her. Wie aber könnte man es anstellen,
unsere
Millionen Altdaten auf solche Weise anzureichern?
Wenn man die Eingabearbeit
vermindern
will, braucht man eine gute OCR-Software. Ganz von selber geht's damit
auch nicht, einige Nacharbeit wird immer nötig sein, damit die Daten "sauber"
sind. Inhaltsverzeichnisse z.B. sind individuell strukturiert, das soll
in der Datenbank nicht ganz untergehen, denn der Nutzer würde sonst nur
einen ungegliederten Wortbrei sehen.
Das Anreichern von Daten mit mehr
Text zum Durchsuchen ist auch das Ziel eines Projekts namens BEAT
bei der Library of Congress. Insbesondere werden auch dort die
Inhaltsverzeichnisse
herangezogen. Der Gesamtkatalog OhioLink
hatte das schon längere Zeit
vorexerziert.
Linguistische Analyse
Das vorhandene Datenmaterial kann
teilweise mit moderner Software aufgewertet werden: Wortstamm-Analyse,
Komposita-Zerlegung, Hinzufügen von Synonymen und evtl. Oberbegriffen
aus einem geeigneten (zu pflegenden!) Wörterbuch. Durchdachte Maßnahmen
dieser Art werden immer etwas bringen, aber künstliche Intelligenz
dieser
Art ist begrenzt und mit Vorsicht zu genießen - man weiß das von automatischen
Übersetzungssystemen...
Ontologie
Der Vollständigkeit halber ist
hier zu erwähnen: Die Grundideen des kontrollierten Vokabulars,
des Thesaurus und der Klassifikation sind von Informatikern neu entdeckt
worden, als ihnen die Probleme der Volltextsuche aufgingen. Das
Konzept
der Ontologie
("joint terminology between members of a community of interest") ist
ein
Baustein der Vision des Semantic
Web. Das soll nichts weniger sein als die
Sachkatalogisierungs-Komponente
des WWW neben den bisherigen Suchmaschinen, die ja sozusagen nur
Formalkataloge
sind. Es gibt noch viel zu tun: "No adequately large, refined, and
consistent
ontology exists today" (irgendwie klingt das vertraut), aber man packt
es an. Honig zu saugen für Katalogzwecke gibt es noch nicht.
Ranking
Eine Frage mehr am Rande, aber
nicht
unwichtig, ist die nach der Ordnung von Ergebnismengen. Dazu
dient
meistens das Erscheinungsjahr, d.h. die neuesten Sachen erscheinen
zuerst.
Google-Anhänger schätzen es, wenn
wichtige Nachweise, oder sogar genau die richtigen, sofort als
erste erscheinen. Wie machen die das? Es steckt eine aufwendige
Auswertung
dahinter, und zwar wird unter anderem gezählt, wieviele andere
Dokumente
mit Hilfe von Hyperlinks auf ein Dokument verweisen. Jedes Dokument und
jeder Server erhält auf diese Weise eine Ranking-Zahl, und die wird zur
Anordnung der Ergebnisliste benutzt. Nicht immer, das ist klar, hat ein
Link auf ein anderes Dokument etwas mit dessen Qualität zu tun, es kann
sogar das Gegenteil zutreffen. Und gerade auf die ganz neuen,
vielleicht
äußerst wichtigen Dokumente zeigen noch keine Links. Es gibt aber
Vorschuß-Pluspunkte
für Dokumente, die auf einem Server mit hoher Ranking-Zahl liegen. Man
entdeckt auf diese Weise leicht, was viele andere auch schon entdeckt
und für gut befunden haben. Man entdeckt weniger leicht das
Unkonventionelle, das Entlegene, was der Aufmerksamkeit der breiten
Massen bisher entgangen ist, die echten Geheimtips.
Wollte man dasselbe in
Katalogen
machen, was hätte man zu tun? Man bräuchte nur alle Zitate zu erfassen, die
in den Büchern stehen! Und zwar einheitlich und präzise, sonst könnten
sie nicht gezählt werden. (Der Science Citation Index macht das seit
1963
mit Zeitschriftenartikeln.) Überlegen Sie als Hausaufgabe, wie
realistisch
das ist.
Zum Zwecke eines "Ranking" könnte
man, wenn man das mit den Zitaten nicht schafft, noch andere
Datenelemente
heranziehen:
Auflagebezeichnungen: Wenn
eine Veröffentlichung in mehreren Auflagen und/oder in Übersetzungen
erscheint, könnte das schon als ein gewisses Qualitätsmerkmal gelten.
Ausleihhäufigkeit: die oft
verlangten Titel sind sicher nicht die schlechtesten. (Ganz neue sind
manchmal
die besten - wurden aber noch nie ausgeliehen! Auch Präsenzbücher,
ebenfalls
meistens gut, haben keine Ausleihe aufzuweisen.)
Exemplarzahl: Wenn
Mehrfachexemplare
vorhanden sind (im Verbundkatalog: mehrere Besitzvermerke), wird der
Grund
oft in der Qualität des Textes liegen.
Ein paar Sonderpunkte
könnte
es geben für die dicken Bücher und für die mit Illustrationen,
Beigaben,
Literaturverzeichnissen - denn solche Angaben sind ja immerhin in den Katalogdaten enthalten.
Nutzerbewertung: Amazon
ermöglicht
den Kunden, eigene Rezensionen oder Bewertungen einzubringen. Oder es
wird
automatisch ausgewertet, was der Käufer eines Buches sonst noch gekauft
hat. Solche Dinge sind in Bibliotheken noch nicht versucht worden und
sind
wohl hinsichtlich wissenschaftlicher Literatur mit einiger Skepsis zu
erwägen.
Eine reizvolle Aufgabe, doch jede
Lösung würde nicht die Ergebnismenge als solche verbessern und wäre
im Falle von Null Treffern keine Hilfe.
Zweites ernüchterndes Fazit
Wie auch immer man vorgeht und
welcher
Katalog es auch ist: Wer eine thematische Abfrage macht, kann nie erkennen
oder herausbekommen (denn soviel Zeit hat keiner), ob die Ergebnisliste
wirklich alles Vorhandene zu dem Thema einschließt.
Dasselbe gilt aber auch für Suchmaschinen. Die Zentrale Erwartung ist,
leider, eine naive Wunschvorstellung. Wenn wirklich mal alles
Vorhandene
herauskommt, dann dürfte der Fall noch weit seltener sein als eine
Aufführung
der Oper "Una cosa rara". Aber letzteres fällt sofort auf, ersteres leider gar nicht...
P.S.
Der Titel der zitierten Oper fällt unter das Problem D. Es geht dabei
um eine Frau, die zugleich schön und tugendhaft ist. Der vollständige
Titel verrät etwas mehr: "Una Cosa Rara ossia Belezza ed Onestà". Diese
Oper regte einen gewissen Benedikt Schack zu einem (heute noch weit
seltener gegebenen) Singspiel an mit dem Titel "Der Fall ist noch weit
seltener" (Libretto von Schikaneder). Darin ging's um männliche
Integrität.
|