Facetten der sachlichen Erschließung

Sachliche Erschließung

Eine Aufgabe mit vielen Facetten

Zur Tagung der Gesellschaft für Klassifikation, Dortmund 9.3.2004
(mit späteren Überarbeitungen)
Bernhard Eversberg, UB Braunschweig

Zunächst ein Fazit aus der Erfahrung mit Online-Katalogen im Hinblick auf die thematische Suche :

Das vollautomatische Wort-Indexieren des Datenmaterials allein ist völlig unzureichend.

Schlagwörter können nicht allen Fragestellungen gerecht werden.

Größere Bestände sind nirgends vollständig und konsistent sachlich erschlossen.

Unterschiede zwischen Bibliotheken u. Verbünden sind viel größer als bei den Formalkatalogen.

Ein virtueller Sachkatalog (Simultansuche in mehreren Katalogen) ist deshalb Utopie.

ABER: Die sachliche Suche hat aus Nutzersicht einen höheren Stellenwert als die formale.
UND: Nutzer wollen verbal suchen - das Denken in Klassen und Hierarchien ist schwer vermittelbar.

Die Situation ist also äußerst unbefriedigend, besonders wegen der letzten zwei Punkte. Weil es an der Oberfläche keine Zweiteilung in Formal- und Sachkataloge mehr gibt, wird die mangelnde Zuverlässigkeit der sachlichen im Vergleich zur formalen Suche heute umso stärker spürbar.

Neue Dimensionen
Konventionell, in Zettel- und Listenkatalogen, ist eine Klassifikation immer nur als lineare, also eindimensionale Anordnung abbildbar gewesen und war dadurch im wesentlichen monohierarchisch. Für DK-Zahlen wurde deshalb eine komplexe Syntax erfunden. Heute ist es aber möglich, mehrteilige Notationen zu zerlegen und ihre Bestandteile einzeln suchfähig sowie untereinander frei kombinierbar zu machen. Genauer gesagt: man bräuchte keine länglichen DK-Zahlen mehr umständlich zu bilden sondern nur die einzelnen Teile zu erfassen. (Dies hat eine Analogie in der Frage, ob man Einzelschlagwörter oder Schlagwortketten machen sollte, zumal wenn letztere per Software zum Indexieren wieder zerlegt werden.) Historisch hat diese Idee schon lange existiert, und zwar unter dem Begriff der Facettenklassifikation.

Die Idee der Facettenklassifikation wurde nie in großem Maßstab realisiert. Vielleicht, weil sie zu ehrgeizig war und alles unter ihr Prinzip zwingen wollte. Vielleicht auch, weil die großen Klassifikationen, DK/DDC und LCC, schon zu stark etabliert waren. Ganz sicher aber, weil sie für Zettelkataloge zu aufwendig war. Der Grundgedanke ist der einer mehrdimensionalen Sicht aller Dinge, und diesen Grundgedanke kann man mit heutigen Mitteln ganz anders umsetzen als mit Karteien und Listen. Im Grunde hat aber auch schon die DK auf ihre Weise alle wichtigen Aspekte abgedeckt, und zwar durch diverse Tafeln von "Anhängezahlen". Diese dienten jedoch immer nur zur Untergliederung einer Grundzahl und waren als solche dann in Zettel- und Listenkatalogen nicht suchfähig - doch durch simple Zerlegung könnten sie es werden, wie schon angedeutet.
Hinweis: Die Library of Congress arbeitet an einer Adaptierung der Schlagwort-Normdaten (Library of Congress Subject Headings) unter dem Arbeitstitel "FAST" (Faceted Application of Subject Terminology). Hierbei wird der Schlagwortraum eingeteilt in Facetten der Form ("genre"), der Zeit, Personennamen, Sachbegriffe, Geographische Begriffe, Körperschaftsnamen, Tagungsnamen und Einheitstitel (angelehnt an die verschiedenen Arten von Haupteintragungen, die in den AACR vorgesehen sind). Das umfangreiche Vokabular der Library of Congress Subject Headings (LCSH) wird damit bewahrt, aber die Syntax der Bildung von zusammengesetzten Schlagwörtern soll start vereinfacht werden.

Welche Facetten sollte eine Sacherschließung berücksichtigen?

1. Das Sachgebiet : Grobklassifikation mit Konkordanz zu gängigen Klassifikationen, z.B. auch Aufstellungssystemen.

2. Das Thema : Schlagwörter (PND/SWD : Namen, enge Sachschlagwörter)

3. Der sachliche Aspekt : Philosophie, Psychologie, Politik, Didaktik des Faches etc.

4. Der geographische Raum : nicht bei jedem Dokument relevant, aber in vielen Fächern wichtig.

5. Die Sprache des Textes : Codes für alle Schriftsprachen, Software zur Feststellung der Sprache aus dem Titel?

6. Die Zeit : Epochen und Jahreszahlen : Zeitraum-Codes MARC/UniMARC / Epochenschlagwörter?

7. Der Typ des Dokuments : kompatibel mit RSWK-Formschlagwörtern und DK-Formanhängezahlen

Sechs dieser sieben Aspekte (oder Facetten) können durch Klassifikationen oder Notationssysteme leicht abgebildet werden. Der zweite Aspekt jedoch nicht: Themen müssen verbal ausgedrückt werden - nach allen Erfahrungen ist eine umfassende und halbwegs aktuelle Sachklassifikation nicht realisierbar. Man kann keine aufstellen, und wenn man es könnte, kann man sie nicht allgemein und flächendeckend anwenden. Erkannt hatte das schon Hanns Wilhelm Eppelsheimer in Mainz in den 20er Jahren des 20. Jahrhunderts, und Kataloge nach der pragmatischen "Methode Eppelsheimer" waren recht erfolgreich. Breit durchgesetzt hat sie sich aber nicht, sondern sie erreichte zwischen den Gegenpolen "Verbale Erschließung" und "Klassifikation" keine genügend große Zuwendung. Auch wurde sie nicht ausreichend normiert und kodifiziert, um etwa für Verbünde anwendbar zu werden.

Wenn ein Code- oder Notationensystem für eine der Facetten herangezogen oder neu aufgestellt wird, sollte dieses unbedingt hierarchisch sein, und die Hierarchie sollte sich in den Notationen ausdrücken, wie es bei der DK und DDC schon immer war, bei der LCC und RVK wie auch anderen Aufstellungssystemen jedoch nicht. (Beide wurden in aufwendigen Projekten nachträglich hierarchisiert! D.h. es existiert eine zweite, dem Normalnutzer aber nicht gezeigte Notation.) Durch simple Trunkierung ist es dann möglich, Unterbegriffe zusammenzufassen, was bei verbaler Erschließung (ohne strenge Thesaurusstruktur) nicht möglich oder äußerst schwierig ist. Natürlich kann oftmals eine einzige Notation, wie ein einziges Schalgwort (bzw. Schlagwortkette) den Gegenstand nicht voll umfassen, aber in der Datenbank (anders als auf dem Regal) kann man einem Dokument mehrere Notationen zuordnen. Die LC begnügt sich übrigens mit einer, obwohl das Gros der Bücher nicht mehr systematisch aufgestellt wird (die Magazine sind seit einigen Jahren nicht mehr frei zugänglich).
Hinweis: Eine dreistufige Hierarchie (geographischer Großraum - Land - Landesteil) ist realisiert im System der "Geographic Area Codes" der Library of Congress. Das Schlagwortsystem der Library of Congress hat übrigens bestimmte Typen von Schlagwörtern, die teilweise nur als Unterschlagwörter benutzt werden und bei geeigneter Indexierung ein Facetten-Retrieval unterstützen könnten: Nationality, Geographic, Chronological, Topical subdivisions.

Was sollte man erreichen?
Entscheidend wird sein, ob es gelingt, große Datenbestände endlich mit den wichtigsten Kriterien annähernd vollständig zu erschließen, und wenn nicht retrospektiv, dann ab einem Stichdatum. Denn eine Sacherschließung, bei der einem allzuoft wichtige Dokumente durch die Lappen gehen, weil sie zufällig nicht verschlagwortet, systematisiert oder mit Codes versehen wurden, die ist von zweifelhaftem Wert. Es sind also Wege zu suchen, Notationen und Codes aus anderen Kriterien und aus Fremddaten automatisch abzuleiten.
Sind z.B. SWD-Schlagwörter vorhanden, könnte man in vielen Fällen die Sachgruppennummern aus den SWD-Stammsätzen verwerten. Sind MARC-Fremddaten vorhanden, können LCC- und Dewey-Notationen per Konkordanz auf einen gemeinsamen Nenner gebracht werden.
Effizientere Methoden und Hilfen als bisher sind für die dann noch notwendige intellektuelle Erschließungsarbeit bereitzustellen.
Die Situation erfordert es heute, die Fähigkeiten von Maschinen und Algorithmen noch stärker als bisher auszunutzen. Neue Wege sind zu suchen, möglichst viele Aspekte eines Dokuments mit Hilfe von Programmen herauszufinden. Besonders die Zuordnung zu Sachgebieten (Osiris!) und Dokumenttypen kann teilweise automatisiert werden, ferner kann das magere Textmaterial mit linguistischen Verfahren angereichert werden: Wortstamm-Analyse und Kompositazerlegung vor allem wurden im Projekt Milos demonstriert. Solche Ideen haben in jüngster Zeit schon zu einsatzfähigen Verfahren geführt: durch IntelligentCAPTURE und IntelligentSEARCH wird mit einer Mischung von Methoden das Wortmaterial gescannter Inhaltsverzeichnisse linguistisch und formal analysiert und mit Hilfe von Thesauri aufgewertet, bis hin zur graphischen Visualisierung durch Topic Maps. Hierbei können nicht nur verbale Indexbegriffe gewonnen werden, sondern z.B. werden auch Geographica erkannt, d.h. der Schritt zu den zugehörigen Codes ist nicht mehr weit. Wichtig ist es also nun, zeitgemäße und vor allem praktikable Codelisten aufzustellen und zu normieren. Arbeit für einen Standardisierungsausschuß? Denn das Potential wird gleich wieder begrenzt, wenn in verschiedenen Projekten unterschiedliche Codelisten und Begriffsvokabularien ("Namensräume") verwendet werden.

Neuer Bearbeitungskomfort
Daran schließt sich Weiteres an: es sollte z.B. möglich sein, für ein plötzlich neu aufgekommenes Thema zunächst geeignete Ergebnismengen vorhandener Dokumente zu bilden und diese dann mit einem Schlag mit den nötigen Erschließungselementen zu versehen - also ganz entschieden weg von der Einzeltitel- und Einmal-Bearbeitung, die einen Datensatz später nie wieder in die Hand nimmt. Für Fachreferenten ist es dabei (zum Bilden der Ergebnismengen!) wichtig, die Fremdkriterien, also z.B. DDC und LCC sowie auch LCCS, im eigenen System auch dann zu indexieren, wenn man sie Nutzern nicht anbietet.

Nutzungsoberfläche
Wichtig auf der Nutzungsseite ist die Frage der Präsentation: Wie führt man den Nutzer in das Labyrinth des Wissens hinein - oder kann man ein übersichtliches Navigieren ermöglichen, damit das Ganze nicht als Labyrinth, nicht als Sammelsurium willkürlicher Anhäufungen erscheint? Die Klassifikationen haben seit je die Vorstellung kultiviert, das aufgezeichnete Wissen könne übersichtlich angeordnet werden. Das heute etablierte Denkmodell der Suchmaschine steht dem diametral entgegen: eigentlich ist es wenig mehr als das Denkmodell eines Verkaufsautomaten - der Nutzer wirft einige Wortmünzen ein und hofft, etwas Brauchbares herauszubekommen. Es erspart ihm scheinbar die Mühe, sich einen Überblick über die Welt oder einen Ausschnitt davon zu verschaffen. Anders herum gesagt: Nutzer werden mit der wahren Komplexität der Welt gar nicht konfrontiert, sondern erhalten eine Auswahl präsentiert, die anscheinend - nein, nur scheinbar - die ihnen im Moment wichtigen Dokumente enthält. Was man haarscharf verfehlt hat, was links und rechts davon liegt, darüber und darunter, das bleibt unsichtbar. Google kennt ja noch nicht einmal Trunkierung. Nicht oft und nicht eindringlich genug können deshalb die in Online-Katalogen meist vorhandenen Register den Nutzern nahegebracht werden - sofort sieht der Nutzer z.B.: Aha, es gibt ja Singular und Plural. Darauf wird in einem anderen Papier eingegangen. "Vorbild und Erfolgsmodell Google"? Das ist entschieden zu kurz gedacht. Die Bildzeitung ist in gewisser Hinsicht eine erfolgreiche Zeitung, aber wofür ist das ein Argument?

Neue Konzepte der Informatik
Das Begriffsgeflecht eines Fachthesaurus kann z.B. graphisch visualisiert werden ("Topic Maps").
Die oft zitierten "Ontologien", tragende Säulen des (noch nicht existierenden) "Semantic Web", sind nichts anderes als XML-codierte Klassifikationen oder Thesauri im weitesten Sinne, wobei besonders die Hierarchie und andere Beziehungen zwischen Begriffen abgebildet werden sollen, damit Programme nicht mehr nur Zeichenketten "sehen", sondern auch etwas von deren Bedeutung "begreifen". Das Erstellen einer wirkungsvollen Ontologie ist aber noch aufwendiger als das Erstellen einer herkömmlichen Klassifikation, das Anwenden auf einen Datenbestand nicht minder. Vorerst scheint es sich um eine Methodik für kleinere Spezialgebiete zu handeln, die im Großen noch nicht anwendbar ist - es existiert keine Ontologie von der Größenordnung etwa der DK oder der SWD.

Abbildung der Welt in einer Klassifikation - noch zeitgemäß?
Nehmen wir die alten Klassifikationen her, DDC, DK und LCC, so bildet deren Struktur die Welt nicht mehr dem heutigen Verständnis entsprechend ab. Der Erkenntnisfortschritt von 100 Jahren hat nun mal zu einer anderen Weltsicht geführt. Zwar ist es sicher nicht die Aufgabe einer Bibliotheksklassifikation, ein "korrektes" und zeitgemäßes Weltbild zu präsentieren, vielmehr soll sie das aufgezeichnete Weltwissen übersichtlich und hilfreich gliedern. Zwischen diesen beiden Positionen besteht allerdings eine wohl nicht ganz lockere Korrelation. Zur Veranschaulichung kann man sich etwa die Dewey-Gliederung anschauen und daneben eine versuchsweise aufgestellte Grobgliederung. Die letztere wird dann aufgefächert in eine Sachgruppenliste, die zumindest die Großgruppen wichtiger Aufstellungs-Systematiken und die deutschen Sondersammelgebiete umfasst.

Man könnte denken, die Suchmaschinen hätten ein vollständig verbal orientiertes Denkmodell. Genau betrachet ist das aber nicht so und wird auch von Nutzern nicht ganz so verstanden. Es gibt ein paar formale Aspekte, die man ausnutzen kann: etwa den, ob ein gesuchtes Wort in der URL vorkommt oder in einem Link; auch der Ländercode der URLs gehört dazu. Nutzer geben ferner, wie man feststellen kann, oft neben den Sachwörtern noch formale mit ein: etwa "Doktorarbeit" oder "Einführung" oder "kostenlos". Offenbar in der intuitiven (aber allzu kühnen) Vorstellung, solche Aspekte seien irgendwie registriert und diese Suchabsicht werde auch automatisch erkannt, oder mit der Überlegung, diese Wörter kämen stets in relevanten Dokumenten vor, was natürlich nicht der Fall ist. Die Ergebnismenge wird dann über die Erwartung hinaus verkleinert, was jedoch nicht erkennbar wird.

Wenn wir aber nicht mehr darauf bestehen, eine ins Detail gehende Universalklassifikation zu verfolgen, wenn wir eine facettierte Erschließung anstreben, bei der eine eher grobe Sachgebiets-Einteilung nur eine von mehreren Facetten ist, dann können wir auch eine neue Hauptgruppen-Gliederung vornehmen, dann können wir auch mit Software-Hilfsmitteln die Notationen der vorhandenen klassifikatorischen Daten in eine neue Struktur überführen und diese auf ganz neue Weise präsentieren. Noch vor 30 Jahren war es nicht ansatzweise zu sehen, welche Möglichkeiten sich uns heute bieten. Nun aber sind sie da - machen wir was draus! Könnte man nicht über die alte Weltsicht, wie sie in den Daten nun einmal drin steckt, eine virtuelle neue Sicht legen, die den Nutzer mit heutigen Begriffen und einer ihm geläufigen Anordnung konfrontiert, unter der Oberfläche dann aber zu den anders angeordneten relevanten Klassen der Systematik hinführt? Dabei bräuchten die Notationen selbst gar nicht sichtbar gemacht werden, wenn deren Hierarchie auch auf andere Weise verdeutlicht werden kann.
Also: Man braucht Dewey nicht so zu präsentieren wie es ist - zumal man das ohne Lizenzzahlungen nicht darf.

Ergebnismengen-Ordnung
OPAC-Software kann nicht nur zur Suche, sondern auch zur Ordnung und strukturierten Präsentation von Ergebnismengen andere Kriterien heranziehen als bisher:

Dokumenttyp
Sprache
Sachgruppe

Diese und andere Aspekte können auch zur Verkleinerung der Ergebnismenge zur Wahl gestellt werden.

Ordnung nach "Relevanz"
Grundsätzlich ist Relevanz subjektiv und einer Maschine deshalb unzugänglich. Man spricht daher jetzt meistens neutral von "Ranking", wenn es um die Reihenfolge von Ergebnismengen geht. Eine Google-ähnliches Ranking ist wohl völlig utopisch: dafür hätten die Zitate, die in einem Dokument stecken, maschinenlesbar vorzuliegen. Zu bedenken ist auch: Das Google-Ranking bringt die vermeintlich populärsten Dinge nach oben, die schon von vielen anderen gut gefunden und deshalb verlinkt wurden. Bei der sachlichen Katalogsuche ist man aber oft auf der Jagd nach Dingen, die noch keiner entdeckt hat.

Denkbar ist eine Ordnung von Ergebnismengen nach einem Punktesystem mit mehreren formalen Kriterien, die bisher nicht genutzt wurden:

Auflagebezeichnungen: Wenn eine Veröffentlichung in mehreren Auflagen und/oder in Übersetzungen erscheint, könnte das ein Qualitätsmerkmal sein. Oder auch allein die Eigenschaft des Textes, eine Übersetzung zu sein.
Ausleihhäufigkeit: die oft verlangten Titel sind sicher nicht die schlechtesten. (Ganz neue sind manchmal die besten - wurden aber noch nie ausgeliehen! Auch Präsenzbücher, ebenfalls meistens gut, haben keine Ausleihe aufzuweisen.)
Exemplarzahl: Wenn Mehrfachexemplare vorhanden sind (im Verbundkatalog: mehrere Besitzvermerke), wird der Grund oft in der Qualität des Textes liegen.
Ein paar Sonderpunkte könnte es geben für die dicken Bücher und für die mit Illustrationen, Beigaben, Literaturverzeichnissen - denn solche Angaben sind ja immerhin katalogisiert.
Nutzerbewertung: Amazon ermöglicht den Kunden, eigene Rezensionen oder Bewertungen einzubringen. Oder es wird automatisch ausgewertet, was der Käufer eines Buches sonst noch gekauft hat. Solche Dinge sind in Bibliotheken noch nicht versucht worden und sind wohl hinsichtlich wissenschaftlicher Literatur mit einiger Skepsis zu erwägen.
Eine reizvolle Aufgabe, doch jede Lösung würde nicht die Ergebnismenge als solche verbessern und wäre im Falle von Null Treffern keine Hilfe.

"Rechtschreibkorrektur"
Oft wird bei Google, wenn man sich vertippt hat, das korrekt geschriebene Wort angeboten, mit der Frage "Meinten Sie vielleicht ...?", und oft erkennt man so, einen Tippfehler begangen zu haben. Anscheinend wird dort eine besondere Art von Wörterbuchdatei gepflegt, die konsultiert wird, wenn ein Wort besonders wenige oder keine Treffer geliefert hat. Verlassen kann man sich darauf nicht: ist das falsch geschriebene Wort seinerseits mit einer gewissen Frequenz vertreten, kommt kein Hinweis. Hat man z.B. das noch recht seltene "Brennnessel" eingegeben, wird man auf "Brennessel" hingewiesen - nicht aber umgekehrt, was wichtiger wäre.
Ob ein entsprechender Aufwand für Katalogsysteme getrieben werden und ob er zu einem nennenswerten Erfolg führen könnte, hätte ein Projekt herauszufinden.

Fazit: Normierung und Zentralisierung
Grundlegende Verbesserungen sind nicht auf einem Königsweg, nicht mit einem Patentrezept zu erreichen. Man wird sich ganze Maßnahmenbündel überlegen müssen, aber die Chancen stehen gar nicht schlecht. Zuerst sollte man sich auf Codes und Notationen für die erwähnten Kriterien einigen, mindestens auf Listen von Begriffen und deren Semantik, doch kann man dabei auf einige Vorarbeiten bauen oder Vorhandenes nutzen. Verteiltes Vorgehen ist möglich, wenn man sich auf Normen einigt und dann einen intensiven Austausch zwischen den Verbünden organisiert. Es hat schon einige Aktionen zum Austausch von Schlagwort- und Systematikdaten gegeben, und diesen ersten Schritten könnten viele weitere folgen.

Aber: Man wird kein neues Verfahren finden, das dann in derselben Weise in allen Online-Katalogen zum Einsatz kommen könnte. Besonders gilt das für solche, die sich auf irgendeine Art von Wörterbuchdatei und/oder auf proprietäre Algorithmen stützen - der bunte Flickenteppich würde also noch größer und bunter. Weil aber schon längst lokale Bestände für viele Fragen unzureichend sind, könnte man eine Stärkung der Verbundkataloge und deren Einsatz auch im OPAC-Bereich ins Auge fassen, was gelegentlich schon vorgeschlagen wurde (Suche im Verbund, Ausleihe im Lokalsystem). Die wenigen Verbunddatenbanken bieten eher eine Chance auf Vereinheitlichung von Suchkriterien und -verfahren, und ein effektiver Austausch von Datenelementen ist nicht mit beliebig vielen Partnern durchführbar. Diese Sichtweise wird sogar zwingend, wenn auch unselbständige Veröffentlichungen einbezogen werden und wenn man die Anreicherung durch Inhaltsverzeichnisse und weiteres Wortmaterial in Betracht zieht.

B. Eversberg, 2004-03-11 / 2005-04-29