Eine seltene Sache

Erwartung und Ernüchterung

bei der thematischen Katalogsuche

"Una cosa rara" (Eine seltene Sache) ist der Titel einer Oper (Libretto von da Ponte), die 1786 in Wien Mozarts Figaro vom Spielplan verdrängte. Vicente Martín y Soler, der Komponist, war zu jener Zeit viel populärer als Mozart. Der jedoch hatte kein Problem damit, im "Don Giovanni" das Werk des Konkurrenten wohlwollend zu zitieren (als Tafelmusik beim Souper). Das heutige Publikum kann die Anspielung nicht bemerken, weil inzwischen die "Cosa rara" sozusagen "rarissima" geworden ist - kaum je wird sie noch gespielt - während "Figaro" und "Don Giovanni" zu den großartigsten und beliebtesten Opern überhaupt zählen.
Auch und gerade die seltenen Sachen will man in Katalogen finden können, nicht nur die, für die sich jeder interessiert. Deshalb gibt es neben der formalen Katalogisierung die Sachkatalogisierung, heute sagt man sachliche Erschließung.
Dieser Text soll keine Einführung in die Sacherschließung bieten, davon gibt's genug, er soll nur eine Ahnung von ihrer Notwendigkeit erwecken. Zur Zielgruppe gehört u.a., wer darüber noch nie nachgedacht hat oder wer ein diffuses Unbehagen konkretisieren möchte. Wer dagegen dauernd mit wachem Auge in Katalogen sucht, dem braucht man nichts zu erzählen.

"Wenn Sie umfassende Informationen zu einem bestimmten Thema suchen, kann das Netz eine Hilfe sein. Nicht mehr, nicht weniger. Eine  größere Hilfe bieten allerdings Bibliotheken. Eine derartige Konzentration an Wissen gibt es nicht im Netz. Wie lange brauchen Sie um ein Buch durchzublättern, die Seiten zu überfliegen und einige Dutzend Bilder zu betrachten? Wie lange dauert das im World Wide Web? Und was kostet es?"
Man könnte weit ausholen, aus der Tiefe der Geschichte schöpfen (schon die antike Bibliothek in Alexandria hatte einen Sachkatalog) und dann abstrakt fragen, was denn heute das Paradigma der Bibliothek sei. Wir fragen hier nicht paradigmatisch (das kann woanders geschehen), sondern ganz pragmatisch:

Was wird denn erwartet?
Sind Sie ein naiver Katalognutzer? (Oder -nutzerin, das läuft auf's selbe hinaus.) So nennen wir einfach mal solche, und das ist nicht abwertend gemeint!, die noch nicht durch eine Theorie vorbelastet sind. Naive Nutzer, darauf darf man hohe Wetten abschließen, sind sich völlig einig in der Erwartung (siehe oben das Zitat aus der "Suchfibel"), was ihnen ein Katalog bieten müsse:
"Der Katalog soll mir, wenn ich ein Thema habe, dazu alles Vorhandene auswerfen." (Finden Sie nicht auch?)
Weil sich darin die Nutzerschaft so bemerkenswert einig ist, könnte man von der "Zentralen Erwartung" reden, um einen griffigen Terminus dafür zu haben.
Betrachtet man Zugriffsprotokolle von Online-Katalogen, um zu sehen, was die Nutzer so alles eintippen, findet man eine klare Bestätigung (wie auch bei Befragungen): eine sehr große Zahl der Anfragen sind ganz offensichtlich thematisch gemeint, nicht formal (d.h. nach Verfasser oder Titel). Zuweilen werden da wirklich mit beachtlicher Technikzuversicht richtige Fragen eingetippt. Unbestreitbar wird daher die thematische Suche gebraucht. Diskutieren kann man nur, wie man es anstellen soll.
Diese Zentrale Erwartung ist natürlich alt und hat sich auch längst niedergeschlagen in Katalogtheorien und -prinzipien. Charles A. Cutter, Begründer des amerikanischen Katalogisierungswesens, formulierte 1876:

"A patron should be able to find an item if:
the author is known, OR
the title is known, OR
the subject is known."
Und das allerneueste "Statement of Principles", formuliert und diskutiert im zuständigen Gremium der IFLA, fordert unter anderem vom Bibliothekskatalog, er solle
        "all resources on a given subject"
zusammenführen, was ungefähr dasselbe besagt.

Resources?
Dieser neue Terminus (verdeutscht mit "Ressourcen") wurde eingeführt, um einen Oberbegriff zu haben für alles, was Bibliotheken katalogisieren. Das sind ja längst nicht mehr nur Bücher und Zeitschriften. Das neue Wort ist unnötig. Man kann genausogut "publications" bzw. "Veröffentlichungen" sagen und diesen Begriff nun einfach ein wenig weiter fassen als bisher üblich: Alles, was einer Öffentlichkeit zugänglich gemacht wird, ist eine Veröffentlichung - fertig. Denn es wäre doch erfreulich, wenn ein "Statement of Principles", also etwas sehr Herausgehobenes, sogar dem naiven Nutzer ohne weitere Erklärungen einleuchten würde. Man könnte also sagen:

      "Der Katalog soll alle vorhandenen Veröffentlichungen zu einem Thema nachweisen"
und das ist wieder unverblümt unsere Zentrale Erwartung. Na gut, "Veröffentlichung" wird bisher nicht mit Handschriften, Papyri oder sonstigen Unikaten assoziiert, die in Bibliotheken vorkommen und katalogisiert werden können. Erstens macht das aber nichts. Zweitens könnte man auch von "Aufzeichnungen" reden, wenn man wollte, das wäre zutreffend, nur weniger gebräuchlich. Das Publikum wird sich wohl, wie immer, für Feinheiten der Definition nur sehr am Rande interessieren.

Aber nun schau'mer mal, denn dafür sitzen wir hier beisammen, ob man diese Zentrale Erwartung erfüllen kann oder ob vielleicht hier oder da Abstriche zu machen sind. Skeptiker werden natürlich fragen: "Gibt es hier Handlungsbedarf? Mit moderner Software sollte man doch auch ohne teuren Personalaufwand eine ganze Menge rausholen können!"

1973 wurde in einer Studie zum Grenzbereich zwischen Sprach- und Informationswissenschaft trocken und ohne Begründung festgestellt, die formale Katalogisierung sei "keine wirkliche Herausforderung" (Karen Sparck-Jones & Martin Kay: Linguistics and information science. Deutsch: Linguistik und Informationswissenschaft, 1976, ISBN 3-7940-2653-5). Schon lange war aber die sachliche Erschließung als eine ungleich größere Herausforderung erkannt. Dies führte in Deutschland sogar zu einer höheren Eingruppierung derjenigen, Fachreferenten genannt, die den Job machen, und das will wirklich was besagen.

Damit kommen wir schon zu der schlechten Nachricht: Wenn man nur "formal" katalogisiert, also mehr oder weniger die vorhandenen Titel und sonstigen Angaben von den Titelblättern sorgfältigst abschreibt (oder vielleicht einscannt) und sonst nichts, dann reicht das hinten und vorne nicht, um die Zentrale Erwartung zu erfüllen.
Die besagte Studie folgerte das aus Versuchen mit automatischer Stichwort-Indexierung. Man machte damals, z.B. zuerst in Bochum, sog. KWOC-Kataloge. Die waren nichts anderes als ausgedruckte Stichwort-Register, wobei man neben jedem Wort sofort die Titel sah, in denen es vorkam, der Platz des Stichworts darin durch *** markiert. Man untersuchte, ob mit solchen vollautomatisch erstellten Katalogen zutreffende und zuverlässige Resultate erzielt werden können bei der sachlichen Suche. Das bedeutet: bei einer Abfrage soll nur wenig unnützes Zeug mit rauskommen und nicht zu viel Wichtiges darf fehlen (Jargon: "precision" und "recall" sollen hoch sein). Das Ergebnis war enttäuschend, obschon unbezweifelbar der Stichwortzugriff dem Nutzer eine wesentlich höhere Lebensqualität beschert im Vergleich zu den Zettelkatalogen, wo man Verfasserwerke nur unter dem Verfasser finden konnte. Doch es nützt vorwiegend der formalen Suche, d.h. dem sog. "known-item search" (Titel schon bekannt). Es geht uns nun aber um den "subject search", wo man eben hinter einem Thema her ist, nicht hinter einem schon bekannten Titel.
Die schlechte Nachricht bedeutet: ohne zusätzliche Arbeit wird's nicht besser. Die 70er Jahre sind aber lange vorbei. Vielleicht ist heute alles ganz anders? Wir haben viel leistungsfähigere Systeme, wir haben künstliche Intelligenz!

Nun gut, um was für Probleme geht es? Einige oder alle sind dem langjährigen Katalognutzer schon mal begegnet:

Probleme bei der Stichwortsuche in Katalogen
... wobei mit "Stichwort" diejenigen Wörter gemeint sind, die auf den Titelseiten der Bücher stehen! Denn eine große Menge der Katalogdaten enthält nichts anderes als das, man hat also von dieser Grundlage auszugehen. Und zwar auch und gerade dann, wenn man Sacherschließung für unzeitgemäß und verzichtbar oder unbezahlbar hält.

A. Sprachgemisch
Wenn man nur die Titelblätter abschreibt (oder wenn man sie scannen würde), hat man ein Gemenge aller vorkommenden Sprachen. Solange man im Einzelfall nur deutsche oder nur englische Texte sucht, ist das OK, aber wenn man beides oder noch mehr will, gilt es jedesmal dran zu denken, die jeweils anderen Fachbegriffe auch mal einzutippen, also z.B. "beetle" statt "Käfer". Daran könnte auch eine automatische Übersetzung nicht viel ändern, denn deren Leistungen sind auch heute noch viel zu begrenzt, und die Wissenschaften schöpfen ständig neue Begriffe, die noch in keinem Wörterbuch stehen.

B. Begriffsvielfalt
Ein Thema wird in Titeln nicht immer mit demselben Wort oder Ausdruck benannt. Das ist sowieso klar, wenn man Materialien in mehreren Sprachen hat, aber auch wenn's nur Deutsch ist, erlebt man alles mögliche. Beispiele: Ein Werk über Schmetterlinge kann den Titel "Tagfalter" tragen, ein Buch über Käfer kann im Titel auch "Coleoptera" sagen oder "Bodenarthropoden" (Synonymenproblem). Wenn's speziell um den Fichtenborkenkäfer geht, kann da auch "Buchdrucker" stehen. Wenn es um Verkehrsampeln geht, kann im Titel auch "Lichtzeichenanlagen" stehen.
Andererseits: wenn im Titel "Käfer" steht, kann damit auch ein bekanntes Auto gemeint sein. Dieses sog. "Homonymenproblem" ist gar nicht selten und sorgt für besonders viel Unmut.

Sonderproblem: Namen in Titeln! Je nach Sprache werden die Namen von Personen manchmal sehr eigenwillig geschrieben. Sucht man Literatur über Nikolaus Kopernikus, kann es im Titel auch "Nicolaus Copernicus" heißen oder "MikoĊ‚aj Kopernik" oder noch anders. Die Stadt München heißt in englischen Titeln "Munich", in italienischen "Monaco", usw. usf. Im Einzelfall ist es unmöglich, die evtl. auftretenden Formen alle mit einer Abfrage zu erschlagen. Und weil Namen ja oft identisch mit ganz normalen Wörtern sind, oder Personen so heißen wie Städte oder Länder, verschärfen sie das Homonymenproblem.

C. Sprachwandel
Begriffe veralten oder werden "politisch inkorrekt", der Sprachgebrauch wird ständig in Bewegung gehalten.
Beispiele: "Globalisierung" hieß vor 1998 "Internationalisierung", "Gender" haben die "Geschlechter" abgelöst, "Biodiversität" ersetzt "Artenvielfalt", "Indianer" laufen jetzt in Nordamerika unter "First Nations", "Negroes" wurden erst zu "Blacks", dann zu "Afro-Americans", dann zu "African Americans", "Behinderungen" werden durch "Beeinträchtigungen" verdrängt (im Englischen "handicaps" durch "challenges"), und so geht das laufend weiter. Aber die Titel der älteren Bücher kann man natürlich nicht laufend dem Zeitempfinden anpassen - man darf sie vielmehr gar nicht ändern. Vielleicht braucht man sie nicht mehr, aber jedenfalls findet man sie nicht mehr, wenn man nur mit den neuen Wörtern sucht. Es sei denn, man hat alles verschlagwortet und arbeitet ständig an den Schlagwort-Normdaten ...

D. Sprachspielerei / Metaphorik / Irrelevanz
Nicht selten findet der Verfasser oder der Verlag es opportun, eine Titelformulierung zu wählen, die modern, anziehend oder witzig erscheinen soll, für sich allein aber nicht zu erkennen gibt, um was es geht (Metaphernproblem). Das ist kein neues Phänomen! G.E. Lessing gab den Rat, "Ein Titel muß kein Küchenzettel sein. Je weniger er von dem Inhalte verrät, desto besser". 
Beispiele: "Rot-Gelb-Grün" für eine Darstellung über Verkehrsampeln, "The agony and the ecstasy" - ein biographischer Roman über Michelangelo, "Eins zu einer Million" für ein Buch über Manipulation in der Kartographie, "Ein Planet wird geplündert" für ein Werk über gedanken- und rücksichtslose Ressourcenverschwendung und Raubbau an den natürlichen Reserven. Manchmal steht wenigstens im Titelzusatz, um was es eigentlich geht: "Im Raume lesen wir die Zeit : über Zivilisationsgeschichte und Geopolitik". Auch der Titel dieses Papiers ist so ein Beispiel.
Weniger auffällig, aber unvermeidlich: Nicht jedes Wort in einem Titel sagt, für sich genommen, etwas über das Thema. "Meerwasserentsalzung und ihre Energieversorgung" ist kein Buch zum Thema Energieversorgung. "Sport und Umwelt : Fachtagung Hannover 1987" hat weder mit dem Thema "Sport in Hannover" noch mit "Umwelt von Hannover" zu tun.
Bei einer Volltextsuche wiegt dieses Problem noch viel schwerer: oft stehen da irgendwo Wörter, die mit dem Thema nichts zu tun haben. In diesem Text zum Beispiel stehen die Wörter "Mozart" und "Kirchenmusik". Man wird ihn bei Google in der Ergebnismenge finden, wenn man "mozart kirchenmusik" eingibt. Auch bei einer Suche nach "Martín y Soler" wird man dieses Papier finden, aber nicht finden wollen. Andererseits könnte ein Volltextsuchsystem diejenigen Wörter höher gewichten, die mehrfach im Dokument vorkommen oder in Überschriften, nah am Beginn des Textes oder in anderen vermutlich bedeutsamen Teilen auftreten. Ein Katalog kann das nicht tun - er hat die Volltexte ja nicht.

E. Sprachliche Eigenheiten
Zuerst die Flexionsformen: Wörter kommen auch mal im Genitiv oder im Plural vor - für ein Suchsystem sind die Unterschiede nicht trivial. Im Deutschen und Englischen kann man das oft durch Trunkierung abfangen, aber nicht immer: "Ärzte" findet man nicht, wenn man nach "arzt?" sucht. In anderen Sprachen kann es noch viel schwieriger sein, z.B. in den slawischen: Da machen Wörter mitunter ganz sonderbare Verwandlungen durch.
Zweitens gibt es die Zusammensetzungen. Im Englischen seltener als im Deutschen, aber "firewood" findet man nicht, wie auch "Brennholz", wenn man nach "wood" sucht bzw. nach "Holz" oder "Holz Energiequelle". Das Deutsche hat mit seiner Eigenheit der bedenkenlosen Verkuppelung von vorher nie zusammen gesehenen Wörtern ("Turbokapitalismus", Massenarbeitslosigkeitsproblem", "Geschäftsphilosophie") ein beispielloses Potential wundersamer Wortvermehrung. Der jeweils zweite (dritte, vierte) Teil einer Zusammensetzung aber ist in der Stichwortsuche nicht als solcher auffindbar. Wer "käfer" eintippt, findet keinen Titel, in dem "Laufkäfer", "Sandlaufkäfer", "Schwimmkäfer", "Kornkäfer", "Kartoffelkäferplage" usw. usf. steht. Wenn man das wollte, wäre eine "Linkstrunkierung" nötig oder eine Volltext-Zeichenkettensuche, was große Datenbanken aber nicht anbieten können. Im Englischen, aber auch in den romanischen und slawischen Sprachen, gibt es nur relativ wenige Zusammenschreibungen bei lange bewährten Verbindungen, Neologismen dagegen halten immer Distanz. Im Deutschen ist, katalogtechnisch gesehen, das Ganze weniger als die Summe seiner Teile. In anderen Sprachen ist dagegen ein Kompositum als solches nur zugänglich, wenn die Software eine Phrasensuche machen kann.
Andererseits hat die Rechtschreibreform manche ehemals besiegelten Verbindungen mutwillig zerteilt: jetzt haben wir neben "nichtlinear" und "nichtrostend" auch "nicht linear" und "nicht rostend". Versuchen Sie mal, beides mit einem Suchbefehl zu packen!
Na, und die Bindestrich-Wörter! Neben "Mittelalterarchäologie" gibt es auch "Mittelalter-Archäologie". Es kommt auf die Software an, ob man und wie man beides zugleich finden kann. Das erste kommt aber bei Eingabe von "mittelalter archaeologie" auf keinen Fall raus, und Titel wie "Archäologie des Mittelalters" oder "Mittelalterliche Archäologie" entziehen sich dann ebenfalls.
Das Deutsche verfügt ferner über einen Sparmechanismus, indem es Verkürzungen bei Aufzählungen erlaubt: den Titel "Sprach-, Schreib- und Leseleistung in der Mittelstufe" findet man nicht, wenn man nach "Schreibleistung" oder "Sprachleistung" sucht. Bei der Suche nach "Rechtsphilosophie" geht einem der Titel "Rechts- und Staatsphilosophie" durch die Lappen. "Volksmusik" versagt bei dem Titel "Volks- und Kirchenmusik", mit "Krisenmanagement" entgeht einem das "Krisen- und Insolvenzmanagement" - usw. usf.

F. Rechtschreibwandel
Verschärft durch die jüngste Rechtschreibreform, doch auch früher schon spürbar: Wörter sind keine auf ewig unwandelbaren Buchstabenfolgen. Sie sind Lautfolgen, und deren Verschriftlichung kann sich eben wandeln, selbst wenn sich die Laute nicht wandeln. So gab es vor 1900 noch Thiere, Thore, Thaten usw., auch in Buchtiteln, "Temen", Tesen" und "Teater" hingegen gestattet auch die Rechtschreibreform noch immer nicht.
Andererseits: auch wenn sich die Laute wandeln, wird meistens nicht sofort die Schreibung nachziehen. Extrem ist das im Englischen. Computerprogramme aber, und das ist der Knackpunkt, suchen stets NUR nach Zeichenfolgen, NICHT nach Lautfolgen. Gewiss, es gibt da sog. "Soundex"-Algorithmen. Die funktionieren aber nur in einsprachigen Umgebungen. Das ist kein Patentmittel für Kataloge: in Katalogdaten kann eine Software noch nicht einmal erkennen, in welcher Sprache denn der Titel formuliert ist!
In manchen Fällen, wie beim "Potenzial", kann eine Maskierfunktion helfen: "poten?ial" kann so auch zugleich das "Potential" finden. Aber wer denkt beim Eingeben immer an sowas, wer hat die verschiedenen Schreibungen immer präsent - das ist der Punkt! Beim neuen "selbstständig" statt des alten "selbständig" würde auch die Maskierung nicht helfen.
Die Reform sollte das Erlernen der Orthographie erleichtern. Den Umgang mit Katalogen erschwert sie, denn dabei müssen im Ernstfall beide Schreibungen berücksichtigt, also auch erinnert werden. Software (eingebautes "Wörterbuch") könnte hier einige Unterstützung leisten, perfekt zu lösen ist das Problem aber nicht, wenn man an die immer neuen Wortzusammensetzungen denkt, die im Deutschen dauernd hervorsprießen. Das "-potential" kann sich an fast jedes Substantiv anhängen, wobei Genitiv und Plural natürlich auch noch vorkommen können. Die Rechtschreibreform verlangt, mal auf den Punkt gebracht, vom Katalognutzer noch mehr Krimskrams-Wissen als vorher. Und das bis ans Ende seiner Tage, denn die alten Titel können und dürfen wir nicht ändern.
Relevant sind z.B. auch die Unterschiede zwischen der britischen und der amerikanischen Orthographie. Hier schreibt man "colour", dort "color", das weiß jeder. Nicht so sehr bekannt: die Farbe Grau schreibt sich hüben "grey" und drüben "gray". Im GBV kann man finden: 1711 mal "grey" und 2603 mal "gray" (wobei der Name "Dorian Gray" (Homonym!) nicht mitgezählt wurde, aber mit herauskommt).

G. Eingabefehler
Wo Menschen Daten erfassen, da passieren Tippfehler, das ist klar. Sehr hoch ist deren Zahl nicht, vernachlässigbar aber auch nicht. Es gibt sogar eine große Sammlung von beobachteten Schreibfehlern in Katalogdaten.  Rechtschreibkorrektur-Software einsetzen? Sowas ist immer auf eine bestimmte Sprache geeicht, Bibliotheken erwerben aber Material in mehreren Sprachen, außerdem sind die Titel von Forschungsliteratur gespickt mit neuen und ungewöhnlichen Wörtern, die eine Rechtschreibsoftware noch nicht kennen kann. Scannen wäre keine Abhilfe, auch bei OCR-Software passieren Fehler. Zumal bei der großen typographischen Vielfalt gerade auf den Titelseiten. 

H. Granularität
Wenn wir mal sehr blauäugig so tun als seien die genannten Probleme alle nicht so wichtig und nicht sehr zahlreich, so bleibt mindestens noch eines übrig, und zwar ein ganz dickes Kaliber: Titel sind viel zu kurz. Sie verraten zu wenig. Wenn nur das eingegeben wird, was auf den Titelseiten steht, dann ist das sehr oft völlig unzureichend für die thematische Suche. (Problem D. ist, so gesehen, nur ein Sonderfall.) Ein Handbuch "Beetles of Europe" mag in ausführlichen Artikeln über tausend Käferarten beschreiben, keine einzige davon würde man aber als solche im Katalog finden, auch das Handbuch selber findet man nicht mit dem Suchwort "Käfer", denn im Titel steht ja "Beetles".
Umgekehrt: Sucht man "beetles europe", findet man nur Dokumente mit genau diesen Wörtern im Titel, nicht aber solche, die den Namen irgendeines europäischen Käfers oder einer Käferfamilie im Titel haben.
Jeder kann sich leicht unbegrenzt viele solche Beispiele ausdenken. Steht nur ein Oberbegriff im Titel, findet man das Dokument nicht mit irgendeinem Unterbegriff - und umgekehrt.
Die formale Katalogisierung betrachtet nur das physische Objekt als Einheit, egal wie dünn oder dick es ist - Gehalt und Umfang spielen dabei keine Rolle, nur der Titel, der vorne draufsteht. Die AACR-Praxis nimmt sogar oft nur den Gesamttitel eines mehrbändigen Werkes auf und schreibt die Titel der Bände höchstens in eine Fußnote.

I. Wechselwirkungen
Bei vielen Abfragen wird eine Wortkombination eingegeben, also nicht nur eins, sondern zwei oder mehr Wörter. Ist eines davon, oder mehr als eines, von einem der genannten Probleme betroffen, kann erst recht die Kombination nicht zu einem vollständigen Ergebnis führen.

Ernüchterndes Fazit:
Die Zentrale Erwartung ist unerfüllbar, wenn man keinen erheblichen Aufwand treibt. Man sollte, im Gegenteil, dem Nutzer sagen: "Wenn der Katalog zu einem Thema scheinbar nichts hergibt, heißt das noch lange nichts - wir könnten trotzdem eine Menge haben! Und wenn er was hergibt, dann aufpassen: vielleicht ist noch mehr und noch besseres da." Jede Bibliothek hat Material zu viel mehr Themen, und mehr zu fast jedem einzelnen Thema, als der Katalog zu erkennen gibt. Wer die aufgezählten Probleme verstanden hat, wird dies nicht als Bankrotterklärung auffassen, sondern als leider unvermeidliche Konsequenz der Gegebenheiten.

Nebenbei:
Wenn der Online-Katalog über Register verfügt, in denen der Nutzer blättern kann, können die Probleme E, F und G dadurch in vielen Fällen etwas entschärft werden. Hat man "Millenium" eingegeben, wird man im Register sehen: aha, die richtige Schreibung ist "Millennium", aber auch die falsche Schreibung kommt ein paarmal vor. Oder: neben der "Brennessel" gibt es auch die "Brennnessel". Ohne Registereinblick (sog. Freischütz-Suche) erhält man nur eine der beiden Ergebnismengen, ohne Hinweis auf die andere. Was die anderen Probleme betrifft, helfen Register wenig. Andererseits: Die Probleme B., D. und E. treten bei Suchmaschinen weniger leicht auf, wenn die Volltexte indexiert werden. Denn Synonyme, andere Schreibweisen (auch Plural, Genitiv u.a.) bzw. alle wirklich wichtigen Begriffe treten mit hoher Wahrscheinlichkeit irgendwo im Text auf, wenn schon nicht im Titel. Vor allem aber das für Kataloge besonders schlimme Problem H. löst sich deswegen bei Suchmaschinen beinahe, wenn auch nicht ganz, in Wohlgefallen auf!
Will man nun schließen, Bibliotheken sollten halt eben Suchmaschinentechnologie einsetzen, dann ist das so lange müßig, wie wir die Volltexte gar nicht zum Indexieren zur Verfügung haben. Und das wird noch recht lange so sein.

Zwischen einem Wort und seiner Bedeutung gibt es keinen zwingenden Zusammenhang - das hatte schon Aristoteles gemerkt - und Computer können nur nach Wörtern suchen (genauer: nach Zeichenfolgen), also nicht nach Bedeutungen. Das erklärt die ganze Kalamität, die Beispiele hätten wir uns auch sparen können. Eine Sacherschließung, das wird jetzt aber umso klarer, wird nur wirkungsvoll sein und der Zentralen Erwartung etwas näher kommen, wenn sie bedeutungsträchtige Angaben hinzufügt. 

Was kann man denn bloß tun?
Da gibt es im Prinzip zwei Möglichkeiten: (in einem anderen Papier steht dazu noch mehr)

  1. Schlagwörter : Das sind zusätzliche Wörter, aber mit Überlegung nach genauen Regeln eingegeben

  2. "Kontrolliertes Vokabular" sagt man dafür auch. Dabei versucht man, die Probleme A. bis F. zu auszuschalten, wobei C. und F. aber trotzdem Ärger machen können. In Deutschland verwenden viele Bibliotheken die "Schlagwortnormdatei" (SWD), im englischen Sprachbereich arbeitet man mit den "Library of Congress Subject Headings" (LCSH). Beide passen nicht sehr gut zusammen, eine automatische Umsetzung ist höchstens sehr unvollkommen machbar. Die eine bevorzugt den Singular, die zweite den Plural eines Wortes - das gehört zu den kleineren Problemen. Beide enthalten mehrere 100.000 geprüfte, durchdachte, normierte Begriffe, die man als Schlagwörter verwenden kann. Die Qualität, die Aktualität und der Umfang dieser Begriffe sind je nach Fachgebiet verschieden, doch an beiden Systemen wird ständig gearbeitet. Kleines Beispiel: Das "Homonymenproblem" wird durch Zusätze gelöst: z.B. "Käfer <Kraftfahrzeug>" bzw. "Beetle automobile". Wenn das Schlagwortsystem die Schlagwörter nicht einfach nur als lange Liste aufreiht, sondern Querverbindungen sichtbar macht (Oberbegriffe, verwandte Begriffe), spricht man von einem Thesaurus, und zwar von einem Hierarchischen Thesaurus, wenn die Beziehungen zwischen Ober- und Unterbegriffen umfassend dargestellt sind. Die Schlagwortnormdatei ist kein hierarchischer Thesaurus. Z.B. gibt es beim "Käfer" keinen Hinweis auf den Oberbegriff "Insekt", beim "Laufkäfer" keinen Hinweis auf den Oberbegriff "Käfer".

  3. Symbole, die für Begriffe stehen, z.B. Zahlen oder Codes, auch Notationen genannt
  4. Klassifikationen oder Systematiken sind sprachunabhängig, ein enormer Vorteil, brauchen aber viel Aufwand bei Erstellung, Betreuung und Anwendung. Eine universelle, feingegliederte und zugleich aktuelle Systematik existiert nicht. International ist die Dewey Decimal Classification (DDC) die gebräuchlichste, in Deutschland wohl die Regensburger Verbundklassifikation, die meistens mit der Aufstellung der Bücher zusammenhängt.
    Beispiel: In der (leider sehr veralteten) Universellen Dezimalklassifikation gibt es die Notation 595.7 für Insekten. Diese hat 10 Untergruppen, darunter 595.76 Käfer und 595.78 Schmetterlinge. Diese zerfallen in weitere Untergruppen, z.B. 595.762.12 "Laufkäfer". Der Auto-Käfer hätte eine ganz andere Nummer, 629.114.6, kann also nicht verwechselt werden.
    Die in Deutschland gebräuchlichen Klassifikationen sind leider schon auf ihrer obersten Stufe (Hauptklassen) wenig kompatibel. Leser wissen es zu schätzen, wie man sich in US-Bibliotheken immer schnell zurechtfindet, weil sie alle dieselbe Klassifikation einsetzen. Doch bezieht sich das nur auf die Aufstellung der Bücher, ein Katalogzugriff nach Notationen ist dort wenig bekannt.
Weil es keine aktuelle feingegliederte Klassifikation gibt, hat der GBV von Anbeginn eine zwar moderne, aber recht grobe Klassifikation eingesetzt, die sog. Basisklassifikation, zuerst entwickelt in den Niederlanden. Sie hat wenig mehr als 2000 Notationen - trotzdem ist es nicht zu schaffen, damit wirklich alle Datensätze zu kennzeichnen. Im Prinzip taugt eine grobe Klassifikation aber noch für andere Aufgaben: fachliche Auszüge aus der Datenbank, sachlich geordnete Listen, Einschränkung großer Ergebnismengen nach einem Fachgebiet, statistische Auswertungen (auch für Erwerbung und Ausleihe). Solchen Zwecken dient auch die Sachgebietsgliederung der Deutschen Bibliothek. Sie wird 2004 abgelöst durch eine Liste, die von der Dewey Decimal Classification abgeleitet ist. Es wäre schon viel gewonnen, wenn in größeren Katalogen ein signifikanter Teil der Titeldaten einheitlich mit Sachgruppen-Notationen ausgestattet wäre, doch auch davon sind wir weit entfernt.

Schlagwörter und Klassifikationen sind weit verbreitet, doch allzu viele Bücher in unseren Katalogen haben weder das eine noch das andere. Zwischen den Bibliotheken und Verbünden und erst recht international gibt es große Unterschiede in den verwendeten Mitteln und Methoden. Eine Metasuche nach Schlagwörtern oder Systemstellen ist daher über Systemgrenzen hinweg kaum sinnvoll. Von der Idee her ist beides brauchbar, praktisch und de facto jedoch ist die Zentrale Erwartung damit nicht zu erfüllen, weil eben nur ein Teil aller Bücher verschlagwortet oder systematisiert ist und dann auch noch nach unterschiedlichen Systemen. Nur eine energische, verbundübergreifende, konzertierte, arbeitsteilige Aktion aller Bibliotheken könnte dem vielleicht abhelfen... Aber selbst wenn es zu einer solchen Aktion käme: das Problem der Granularität bleibt bestehen! Soviel Zeit wird insgesamt nicht aufgewendet werden können, alle Bücher gründlich genug von innen zu betrachten, um zu jedem Thema (und was ist überhaupt ein "Thema"?) dann ein Schlagwort oder eine Notation geben zu können - manche dickleibigen Werke hätten dann hunderte oder tausende von Notationen oder Schlagwörtern nötig. Eine Klassifikation oder ein hierarchischer Thesaurus könnte jedoch auf neue Weise helfen: die Software könnte den Nutzer von einer untergeordneten Stelle, z.B. "Hirschkäfer" zu einem Oberbegriff, also "Käfer", hinführen, und die zugehörigen Daten hervorzaubern. Die Dezimalklassifikation ist hierfür theoretisch bestens geeignet. Praktisch ist sie leider zu veraltet und zu wenig im Einsatz. Die in Teilen sehr ähnliche Dewey Decimal Classification liegt nur auf Englisch vor. Momentan wird sie in einem Projekt übersetzt, aber vorerst hat man davon noch nichts - 2005 soll die Übersetzung erscheinen.

Neuere Möglichkeiten
Schlagwörter und Notationen, das sind alte Methoden und sie sind mit Personaleinsatz verbunden. Deshalb sind ja die Katalogdaten zu einem allzu großen Teil frei von solchen Angaben. Was kann man heute tun, um den manuell/intellektuellen Aufwand zu vermeiden oder stark zu reduzieren, um eine wirklich flächendeckende, einheitliche Sachbehandlung aller Veröffentlichungen zu erreichen?
Fremddaten übernehmen, klar, aber das verschiebt das Problem nur nach woanders, wo es auch nicht besser gelöst werden kann.
Zwei Vorgehensweisen bieten sich an und sind auch schon erprobt worden, z.B. in den Projekten Milos (Düsseldorf) und Osiris (Osnabrück). Ein überzeugender Durchbruch, ein flächendeckend anwendbares Verfahren, steht allerdings noch aus.

Einspeisen von mehr Text
... als da sind Inhaltsverzeichnisse der Bücher oder auch noch andere Teile, wobei man die rechtliche Seite im Blick behalten sollte. Besonders für Aufsatzsammlungen (Festschriften, Tagungsbände) kann das sehr viel bringen, besonders hinsichtlich des Problems der Granularität. Beispiel: Vorarlberger Landesbibliothek.  Die dort verwendete Methode, IntelligentSEARCH, hat ein hohes Potential.
Im GBV werden viele Spezialzeitschriften für die Online-Contents-Datenbank in den kooperierenden Bibliotheken ausgewertet, indem man die Inhaltsverzeichnisse der neuen Hefte scannt und dieses Wortgut retrievalfähig macht.
Mehr Text, das kann auch heißen: Klappentexte, Abstracts, Annotationen, Vorworte, Rezensionen, die ersten paar Seiten. Darin steckt relevantes Wortmaterial, das für üppigere Resultate sorgen könnte (natürlich auch für falsche, siehe Problem D). Nicht nur das, sondern die Anzeige solcher Texte, und als Zugabe noch das Umschlagbild, kann dem Nutzer auch sehr bei der Auswahl helfen, um die für ihn relevanten Texte schneller zu erkennen. Der klassische Katalogdatensatz allein gibt auch dafür sehr oft zu wenig her. Wie aber könnte man es anstellen, unsere Millionen Altdaten auf solche Weise anzureichern?
Wenn man die Eingabearbeit vermindern will, braucht man eine gute OCR-Software. Ganz von selber geht's damit auch nicht, einige Nacharbeit wird immer nötig sein, damit die Daten "sauber" sind. Inhaltsverzeichnisse z.B. sind individuell strukturiert, das soll in der Datenbank nicht ganz untergehen, denn der Nutzer würde sonst nur einen ungegliederten Wortbrei sehen.
Das Anreichern von Daten mit mehr Text zum Durchsuchen ist auch das Ziel eines Projekts namens BEAT bei der Library of Congress. Insbesondere werden auch dort die Inhaltsverzeichnisse herangezogen. Der Gesamtkatalog OhioLink hatte das schon längere Zeit vorexerziert.

Linguistische Analyse
Das vorhandene Datenmaterial kann teilweise mit moderner Software aufgewertet werden: Wortstamm-Analyse, Komposita-Zerlegung, Hinzufügen von Synonymen und evtl. Oberbegriffen aus einem geeigneten (zu pflegenden!) Wörterbuch. Durchdachte Maßnahmen dieser Art werden immer etwas bringen, aber künstliche Intelligenz dieser Art ist begrenzt und mit Vorsicht zu genießen - man weiß das von automatischen Übersetzungssystemen...

Ontologie
Der Vollständigkeit halber ist hier zu erwähnen: Die Grundideen des kontrollierten Vokabulars, des Thesaurus und der Klassifikation sind von Informatikern neu entdeckt worden, als ihnen die Probleme der Volltextsuche aufgingen. Das Konzept der Ontologie ("joint terminology between members of a community of interest") ist ein Baustein der Vision des Semantic Web. Das soll nichts weniger sein als die Sachkatalogisierungs-Komponente des WWW neben den bisherigen Suchmaschinen, die ja sozusagen nur Formalkataloge sind. Es gibt noch viel zu tun: "No adequately large, refined, and consistent ontology exists today" (irgendwie klingt das vertraut), aber man packt es an. Honig zu saugen für Katalogzwecke gibt es noch nicht.

Ranking
Eine Frage mehr am Rande, aber nicht unwichtig, ist die nach der Ordnung von Ergebnismengen. Dazu dient meistens das Erscheinungsjahr, d.h. die neuesten Sachen erscheinen zuerst.
Google-Anhänger schätzen es, wenn wichtige Nachweise, oder sogar genau die richtigen, sofort als erste erscheinen. Wie machen die das? Es steckt eine aufwendige Auswertung dahinter, und zwar wird unter anderem gezählt, wieviele andere Dokumente mit Hilfe von Hyperlinks auf ein Dokument verweisen. Jedes Dokument und jeder Server erhält auf diese Weise eine Ranking-Zahl, und die wird zur Anordnung der Ergebnisliste benutzt. Nicht immer, das ist klar, hat ein Link auf ein anderes Dokument etwas mit dessen Qualität zu tun, es kann sogar das Gegenteil zutreffen. Und gerade auf die ganz neuen, vielleicht äußerst wichtigen Dokumente zeigen noch keine Links. Es gibt aber Vorschuß-Pluspunkte für Dokumente, die auf einem Server mit hoher Ranking-Zahl liegen. Man entdeckt auf diese Weise leicht, was viele andere auch schon entdeckt und für gut befunden haben. Man entdeckt weniger leicht das Unkonventionelle, das Entlegene, was der Aufmerksamkeit der breiten Massen bisher entgangen ist, die echten Geheimtips.

Wollte man dasselbe in Katalogen machen, was hätte man zu tun? Man bräuchte nur alle Zitate zu erfassen, die in den Büchern stehen! Und zwar einheitlich und präzise, sonst könnten sie nicht gezählt werden. (Der Science Citation Index macht das seit 1963 mit Zeitschriftenartikeln.) Überlegen Sie als Hausaufgabe, wie realistisch das ist.
Zum Zwecke eines "Ranking" könnte man, wenn man das mit den Zitaten nicht schafft, noch andere Datenelemente heranziehen:
Auflagebezeichnungen: Wenn eine Veröffentlichung in mehreren Auflagen und/oder in Übersetzungen erscheint, könnte das schon als ein gewisses Qualitätsmerkmal gelten.
Ausleihhäufigkeit: die oft verlangten Titel sind sicher nicht die schlechtesten. (Ganz neue sind manchmal die besten - wurden aber noch nie ausgeliehen! Auch Präsenzbücher, ebenfalls meistens gut, haben keine Ausleihe aufzuweisen.)
Exemplarzahl: Wenn Mehrfachexemplare vorhanden sind (im Verbundkatalog: mehrere Besitzvermerke), wird der Grund oft in der Qualität des Textes liegen.
Ein paar Sonderpunkte könnte es geben für die dicken Bücher und für die mit Illustrationen, Beigaben, Literaturverzeichnissen - denn solche Angaben sind ja immerhin in den Katalogdaten enthalten.
Nutzerbewertung: Amazon ermöglicht den Kunden, eigene Rezensionen oder Bewertungen einzubringen. Oder es wird automatisch ausgewertet, was der Käufer eines Buches sonst noch gekauft hat. Solche Dinge sind in Bibliotheken noch nicht versucht worden und sind wohl hinsichtlich wissenschaftlicher Literatur mit einiger Skepsis zu erwägen.
Eine reizvolle Aufgabe, doch jede Lösung würde nicht die Ergebnismenge als solche verbessern und wäre im Falle von Null Treffern keine Hilfe.

Zweites ernüchterndes Fazit
Wie auch immer man vorgeht und welcher Katalog es auch ist: Wer eine thematische Abfrage macht, kann nie erkennen oder herausbekommen (denn soviel Zeit hat keiner), ob die Ergebnisliste wirklich alles Vorhandene zu dem Thema einschließt. Dasselbe gilt aber auch für Suchmaschinen. Die Zentrale Erwartung ist, leider, eine naive Wunschvorstellung. Wenn wirklich mal alles Vorhandene herauskommt, dann dürfte der Fall noch weit seltener sein als eine Aufführung der Oper "Una cosa rara". Aber letzteres fällt sofort auf, ersteres leider gar nicht...

P.S.
Der Titel der zitierten Oper fällt unter das Problem D. Es geht dabei um eine Frau, die zugleich schön und tugendhaft ist. Der vollständige Titel verrät etwas mehr: "Una Cosa Rara ossia Belezza ed Onestà". Diese Oper regte einen gewissen Benedikt Schack zu einem (heute noch weit seltener gegebenen) Singspiel an mit dem Titel "Der Fall ist noch weit seltener" (Libretto von Schikaneder). Darin ging's um männliche Integrität.


B.Eversberg, 2003-10-14 / 2004-02-16