Zunächst ein Fazit aus der Erfahrung mit Online-Katalogen im Hinblick auf die thematische Suche :
Neue Dimensionen
Konventionell, in Zettel- und Listenkatalogen, ist eine
Klassifikation immer nur als lineare, also eindimensionale Anordnung
abbildbar gewesen und war dadurch im wesentlichen monohierarchisch.
Für DK-Zahlen wurde deshalb eine komplexe Syntax erfunden.
Heute ist es aber möglich, mehrteilige Notationen zu zerlegen und
ihre Bestandteile einzeln
suchfähig sowie untereinander frei kombinierbar zu machen. Genauer
gesagt: man bräuchte keine länglichen DK-Zahlen mehr
umständlich zu bilden
sondern nur die einzelnen Teile zu erfassen. (Dies hat eine Analogie in
der Frage, ob man Einzelschlagwörter oder Schlagwortketten machen
sollte, zumal wenn letztere per Software zum Indexieren wieder zerlegt
werden.)
Historisch hat diese Idee schon lange existiert, und zwar unter dem
Begriff der Facettenklassifikation.
Die Idee der Facettenklassifikation
wurde nie in
großem Maßstab realisiert. Vielleicht, weil sie zu
ehrgeizig war und alles unter ihr Prinzip zwingen wollte. Vielleicht
auch, weil die großen Klassifikationen, DK/DDC und LCC, schon zu
stark etabliert waren. Ganz sicher aber, weil sie für
Zettelkataloge zu aufwendig war. Der Grundgedanke ist der einer
mehrdimensionalen Sicht aller
Dinge, und diesen Grundgedanke kann man mit
heutigen Mitteln ganz anders umsetzen als mit Karteien und Listen. Im
Grunde hat aber auch schon die DK auf ihre Weise alle wichtigen Aspekte
abgedeckt, und zwar durch diverse Tafeln von "Anhängezahlen".
Diese
dienten jedoch immer nur zur Untergliederung einer Grundzahl und waren
als
solche dann in Zettel- und Listenkatalogen nicht suchfähig - doch
durch simple Zerlegung könnten sie es werden, wie schon
angedeutet.
Hinweis:
Die Library of Congress arbeitet an einer Adaptierung der
Schlagwort-Normdaten (Library of Congress Subject Headings) unter dem
Arbeitstitel "FAST" (Faceted
Application of Subject Terminology).
Hierbei wird der Schlagwortraum eingeteilt in Facetten der Form
("genre"), der Zeit, Personennamen, Sachbegriffe, Geographische
Begriffe, Körperschaftsnamen, Tagungsnamen und Einheitstitel
(angelehnt
an die verschiedenen Arten von Haupteintragungen, die in den AACR
vorgesehen sind). Das umfangreiche Vokabular der Library of Congress
Subject Headings (LCSH) wird damit bewahrt, aber die Syntax der Bildung
von zusammengesetzten Schlagwörtern soll start vereinfacht werden.
Welche Facetten sollte eine
Sacherschließung
berücksichtigen?
1. Das Sachgebiet : Grobklassifikation mit Konkordanz zu gängigen Klassifikationen, z.B. auch Aufstellungssystemen. 2. Das Thema : Schlagwörter (PND/SWD : Namen, enge Sachschlagwörter) 3. Der sachliche Aspekt : Philosophie, Psychologie, Politik, Didaktik des Faches etc. 4. Der geographische Raum : nicht bei jedem Dokument relevant, aber in vielen Fächern wichtig. 5. Die Sprache des Textes : Codes für alle Schriftsprachen, Software zur Feststellung der Sprache aus dem Titel? 6. Die Zeit : Epochen und Jahreszahlen : Zeitraum-Codes MARC/UniMARC / Epochenschlagwörter? 7. Der Typ des Dokuments : kompatibel mit RSWK-Formschlagwörtern und DK-Formanhängezahlen |
Wenn ein Code- oder Notationensystem für eine der Facetten
herangezogen oder neu
aufgestellt wird, sollte dieses
unbedingt
hierarchisch sein, und die Hierarchie sollte sich in den Notationen
ausdrücken, wie es bei der DK und DDC schon immer war, bei der LCC
und RVK wie auch anderen Aufstellungssystemen jedoch nicht. (Beide
wurden in aufwendigen Projekten
nachträglich hierarchisiert! D.h. es existiert eine zweite, dem
Normalnutzer aber nicht gezeigte Notation.) Durch simple Trunkierung
ist es dann
möglich, Unterbegriffe zusammenzufassen, was bei verbaler
Erschließung (ohne strenge Thesaurusstruktur) nicht möglich
oder äußerst schwierig
ist. Natürlich kann oftmals eine einzige Notation, wie ein
einziges Schalgwort (bzw. Schlagwortkette) den Gegenstand nicht voll
umfassen, aber in der Datenbank (anders als auf dem Regal) kann man
einem Dokument mehrere Notationen zuordnen. Die LC begnügt sich
übrigens mit einer, obwohl das Gros der Bücher nicht mehr
systematisch aufgestellt wird (die Magazine sind seit einigen Jahren
nicht mehr frei zugänglich).
Hinweis: Eine dreistufige
Hierarchie (geographischer Großraum - Land - Landesteil) ist
realisiert im System der "Geographic
Area Codes" der Library of Congress. Das Schlagwortsystem der
Library of Congress hat übrigens bestimmte Typen von
Schlagwörtern,
die teilweise nur als Unterschlagwörter benutzt werden und bei
geeigneter Indexierung ein Facetten-Retrieval unterstützen
könnten: Nationality, Geographic, Chronological, Topical
subdivisions.
Was sollte man erreichen?
Entscheidend wird sein, ob es gelingt, große Datenbestände
endlich mit den wichtigsten Kriterien annähernd
vollständig
zu erschließen, und wenn nicht retrospektiv, dann ab einem
Stichdatum. Denn eine Sacherschließung, bei der einem
allzuoft wichtige Dokumente durch die Lappen gehen, weil sie
zufällig
nicht verschlagwortet, systematisiert oder mit Codes versehen wurden,
die ist von
zweifelhaftem Wert. Es sind also Wege zu suchen, Notationen und Codes
aus anderen Kriterien und aus Fremddaten automatisch abzuleiten.
Sind z.B.
SWD-Schlagwörter vorhanden, könnte man in vielen Fällen
die Sachgruppennummern
aus den SWD-Stammsätzen verwerten. Sind MARC-Fremddaten vorhanden,
können LCC- und Dewey-Notationen per Konkordanz auf einen
gemeinsamen Nenner gebracht werden.
Effizientere
Methoden und
Hilfen als bisher sind für die dann noch notwendige intellektuelle
Erschließungsarbeit bereitzustellen.
Die Situation erfordert es heute, die Fähigkeiten von Maschinen
und
Algorithmen noch stärker als bisher auszunutzen. Neue Wege sind zu
suchen, möglichst
viele Aspekte eines
Dokuments mit Hilfe von Programmen herauszufinden. Besonders die
Zuordnung zu Sachgebieten (Osiris!) und Dokumenttypen kann teilweise
automatisiert werden, ferner kann das magere Textmaterial mit
linguistischen Verfahren angereichert werden: Wortstamm-Analyse und
Kompositazerlegung vor allem wurden im Projekt Milos
demonstriert. Solche Ideen haben in jüngster Zeit schon zu
einsatzfähigen Verfahren geführt: durch IntelligentCAPTURE
und IntelligentSEARCH wird mit einer Mischung von Methoden das
Wortmaterial gescannter Inhaltsverzeichnisse linguistisch und formal
analysiert und mit Hilfe von Thesauri aufgewertet, bis hin zur
graphischen Visualisierung durch Topic Maps. Hierbei können
nicht nur verbale Indexbegriffe gewonnen werden, sondern z.B. werden
auch Geographica erkannt, d.h. der Schritt zu den
zugehörigen Codes ist nicht mehr weit. Wichtig ist es also nun,
zeitgemäße und vor allem praktikable Codelisten
aufzustellen und zu normieren. Arbeit für einen
Standardisierungsausschuß? Denn das Potential wird gleich wieder
begrenzt, wenn in verschiedenen Projekten unterschiedliche Codelisten
und Begriffsvokabularien ("Namensräume") verwendet werden.
Neuer Bearbeitungskomfort
Daran schließt sich Weiteres an: es sollte z.B. möglich
sein,
für ein plötzlich neu aufgekommenes Thema zunächst
geeignete Ergebnismengen vorhandener Dokumente zu bilden und diese dann
mit einem Schlag mit den nötigen Erschließungselementen zu
versehen - also ganz entschieden weg von der Einzeltitel- und
Einmal-Bearbeitung, die
einen Datensatz später nie wieder in die Hand nimmt. Für
Fachreferenten
ist es dabei (zum Bilden der Ergebnismengen!) wichtig, die
Fremdkriterien, also z.B. DDC und LCC sowie auch LCCS, im eigenen
System auch dann zu indexieren, wenn man sie Nutzern nicht anbietet.
Nutzungsoberfläche
Wichtig auf der Nutzungsseite ist die Frage der Präsentation: Wie
führt man den
Nutzer in das Labyrinth des Wissens hinein - oder kann man ein
übersichtliches Navigieren
ermöglichen, damit das Ganze
nicht als Labyrinth, nicht als Sammelsurium willkürlicher
Anhäufungen erscheint? Die Klassifikationen haben seit je die
Vorstellung kultiviert, das aufgezeichnete Wissen könne
übersichtlich angeordnet werden. Das heute etablierte Denkmodell
der Suchmaschine steht dem diametral entgegen: eigentlich ist es wenig
mehr als das Denkmodell eines Verkaufsautomaten - der Nutzer wirft
einige Wortmünzen ein und hofft, etwas Brauchbares
herauszubekommen. Es erspart ihm scheinbar die Mühe, sich einen
Überblick über die Welt oder einen Ausschnitt davon zu
verschaffen. Anders herum gesagt: Nutzer werden mit der wahren
Komplexität der Welt gar nicht konfrontiert, sondern erhalten eine
Auswahl präsentiert, die anscheinend - nein, nur scheinbar - die
ihnen im Moment wichtigen Dokumente enthält. Was man haarscharf
verfehlt hat, was links und rechts davon
liegt, darüber und darunter, das bleibt unsichtbar. Google kennt
ja noch nicht einmal Trunkierung. Nicht oft und nicht
eindringlich genug können deshalb die in Online-Katalogen meist
vorhandenen Register
den
Nutzern nahegebracht werden - sofort sieht der Nutzer z.B.: Aha, es
gibt ja
Singular und Plural. Darauf wird in einem anderen Papier
eingegangen. "Vorbild und Erfolgsmodell Google"? Das ist entschieden zu
kurz gedacht. Die Bildzeitung ist in gewisser Hinsicht eine
erfolgreiche Zeitung, aber wofür ist das ein Argument?
Neue Konzepte der Informatik
Das Begriffsgeflecht
eines Fachthesaurus kann z.B. graphisch visualisiert werden ("Topic Maps").
Die oft zitierten "Ontologien", tragende Säulen des (noch nicht
existierenden) "Semantic Web",
sind nichts
anderes als XML-codierte
Klassifikationen oder Thesauri im weitesten Sinne, wobei besonders die
Hierarchie und andere Beziehungen zwischen Begriffen abgebildet werden
sollen, damit Programme nicht mehr nur Zeichenketten "sehen",
sondern
auch etwas von deren Bedeutung "begreifen". Das
Erstellen einer wirkungsvollen Ontologie ist aber noch aufwendiger als
das Erstellen
einer herkömmlichen Klassifikation, das Anwenden auf einen
Datenbestand nicht
minder. Vorerst scheint es sich um eine Methodik für kleinere
Spezialgebiete zu handeln, die im Großen noch nicht anwendbar ist
- es existiert keine Ontologie von der Größenordnung etwa
der DK oder der SWD.
Abbildung der Welt in einer
Klassifikation - noch zeitgemäß?
Nehmen wir die alten Klassifikationen her, DDC, DK und LCC, so bildet
deren Struktur die Welt nicht mehr dem heutigen Verständnis
entsprechend ab. Der
Erkenntnisfortschritt
von 100 Jahren hat nun
mal zu einer anderen Weltsicht geführt. Zwar ist es sicher nicht
die Aufgabe einer Bibliotheksklassifikation, ein "korrektes" und
zeitgemäßes Weltbild zu präsentieren, vielmehr soll sie
das aufgezeichnete Weltwissen übersichtlich und hilfreich
gliedern. Zwischen diesen beiden Positionen besteht allerdings eine
wohl nicht ganz lockere Korrelation. Zur Veranschaulichung kann
man sich etwa die Dewey-Gliederung
anschauen und daneben eine versuchsweise aufgestellte Grobgliederung.
Die letztere wird dann aufgefächert in eine Sachgruppenliste, die
zumindest die Großgruppen wichtiger Aufstellungs-Systematiken
und die deutschen Sondersammelgebiete umfasst.
Man könnte denken, die Suchmaschinen hätten ein
vollständig verbal orientiertes Denkmodell. Genau betrachet
ist das aber nicht so und wird auch von Nutzern nicht ganz so
verstanden. Es gibt ein paar formale Aspekte, die man ausnutzen kann:
etwa den, ob ein gesuchtes Wort in der URL vorkommt oder in einem Link;
auch der Ländercode der URLs gehört dazu.
Nutzer geben ferner, wie man feststellen kann, oft neben den
Sachwörtern noch formale mit ein: etwa "Doktorarbeit" oder
"Einführung" oder "kostenlos". Offenbar in der intuitiven
(aber allzu kühnen) Vorstellung, solche Aspekte seien irgendwie
registriert und diese
Suchabsicht werde auch automatisch erkannt, oder mit der
Überlegung, diese Wörter kämen stets in relevanten
Dokumenten
vor, was natürlich nicht der Fall ist. Die Ergebnismenge
wird dann über die Erwartung hinaus verkleinert, was jedoch nicht
erkennbar wird.
Wenn wir aber nicht mehr
darauf bestehen, eine ins Detail gehende Universalklassifikation zu
verfolgen, wenn wir eine facettierte Erschließung anstreben, bei
der eine eher grobe Sachgebiets-Einteilung nur eine von mehreren
Facetten ist,
dann
können wir auch eine neue
Hauptgruppen-Gliederung vornehmen,
dann können wir auch mit Software-Hilfsmitteln die Notationen der
vorhandenen klassifikatorischen Daten in eine neue Struktur
überführen und diese auf ganz neue Weise präsentieren.
Noch vor 30 Jahren war es nicht ansatzweise zu sehen, welche
Möglichkeiten sich uns heute bieten. Nun aber sind sie da - machen
wir was draus! Könnte man nicht über die alte Weltsicht, wie
sie in den Daten nun einmal drin steckt, eine virtuelle neue Sicht legen, die den
Nutzer mit heutigen Begriffen und einer ihm geläufigen Anordnung
konfrontiert, unter der Oberfläche dann aber zu den anders
angeordneten relevanten Klassen der Systematik hinführt? Dabei
bräuchten die Notationen selbst gar nicht sichtbar gemacht
werden,
wenn deren Hierarchie auch auf andere Weise verdeutlicht werden kann.
Also: Man braucht Dewey
nicht so zu präsentieren wie es ist - zumal man
das ohne Lizenzzahlungen nicht darf.
Ergebnismengen-Ordnung
OPAC-Software kann nicht nur zur Suche, sondern auch zur Ordnung und
strukturierten
Präsentation von Ergebnismengen andere Kriterien
heranziehen als bisher:
Diese und andere Aspekte können auch zur Verkleinerung
der Ergebnismenge zur Wahl gestellt werden.
Ordnung nach "Relevanz"
Grundsätzlich ist Relevanz subjektiv und einer Maschine deshalb
unzugänglich. Man spricht daher jetzt meistens neutral von
"Ranking", wenn es um die Reihenfolge von Ergebnismengen geht. Eine
Google-ähnliches
Ranking ist wohl völlig utopisch: dafür hätten
die Zitate, die in einem Dokument stecken, maschinenlesbar vorzuliegen.
Zu bedenken ist auch: Das Google-Ranking bringt die vermeintlich
populärsten Dinge nach oben, die schon von vielen anderen gut
gefunden und deshalb verlinkt wurden. Bei der sachlichen Katalogsuche
ist man aber oft auf der Jagd nach Dingen, die noch keiner entdeckt hat.
Denkbar ist eine Ordnung von Ergebnismengen nach einem Punktesystem mit mehreren formalen Kriterien, die bisher nicht genutzt wurden:
Auflagebezeichnungen:
Wenn
eine Veröffentlichung in mehreren Auflagen und/oder in
Übersetzungen
erscheint, könnte das ein Qualitätsmerkmal sein. Oder auch
allein die Eigenschaft des Textes, eine Übersetzung zu sein.
Ausleihhäufigkeit:
die
oft
verlangten Titel sind sicher nicht die schlechtesten. (Ganz neue sind
manchmal
die besten - wurden aber noch nie ausgeliehen! Auch
Präsenzbücher,
ebenfalls
meistens gut, haben keine Ausleihe aufzuweisen.)
Exemplarzahl:
Wenn
Mehrfachexemplare
vorhanden sind (im Verbundkatalog: mehrere Besitzvermerke), wird der
Grund
oft in der Qualität des Textes liegen.
Ein paar Sonderpunkte
könnte
es geben für die dicken Bücher und für die mit
Illustrationen,
Beigaben,
Literaturverzeichnissen - denn solche Angaben sind ja immerhin
katalogisiert.
Nutzerbewertung:
Amazon
ermöglicht
den Kunden, eigene Rezensionen oder Bewertungen einzubringen. Oder es
wird
automatisch ausgewertet, was der Käufer eines Buches sonst noch
gekauft
hat. Solche Dinge sind in Bibliotheken noch nicht versucht worden und
sind
wohl hinsichtlich wissenschaftlicher Literatur mit einiger Skepsis zu
erwägen.
Eine reizvolle Aufgabe, doch
jede
Lösung würde nicht die Ergebnismenge als solche verbessern
und wäre
im Falle von Null Treffern keine Hilfe.
"Rechtschreibkorrektur"
Oft wird bei Google, wenn man sich vertippt hat, das korrekt
geschriebene Wort angeboten, mit der Frage "Meinten Sie vielleicht
...?", und oft erkennt man so, einen Tippfehler begangen zu haben.
Anscheinend wird dort eine
besondere Art von Wörterbuchdatei gepflegt, die konsultiert wird,
wenn ein Wort besonders wenige oder keine Treffer geliefert hat.
Verlassen kann
man sich darauf nicht: ist das falsch geschriebene Wort seinerseits mit
einer gewissen Frequenz vertreten, kommt kein Hinweis. Hat man z.B. das
noch recht seltene
"Brennnessel" eingegeben, wird man auf "Brennessel" hingewiesen - nicht
aber umgekehrt, was wichtiger wäre.
Ob ein entsprechender Aufwand für Katalogsysteme getrieben werden
und ob er zu einem nennenswerten Erfolg führen
könnte, hätte ein Projekt herauszufinden.
Fazit: Normierung und
Zentralisierung
Grundlegende Verbesserungen sind nicht auf einem Königsweg, nicht
mit einem Patentrezept zu erreichen. Man wird sich ganze
Maßnahmenbündel überlegen müssen, aber die Chancen
stehen gar nicht schlecht. Zuerst sollte man sich auf Codes und
Notationen für die
erwähnten Kriterien einigen, mindestens auf Listen von Begriffen
und deren Semantik, doch
kann man dabei auf einige Vorarbeiten bauen oder Vorhandenes nutzen.
Verteiltes Vorgehen ist möglich, wenn man sich auf Normen einigt
und dann einen intensiven Austausch zwischen den Verbünden
organisiert. Es hat schon einige Aktionen zum Austausch von Schlagwort-
und Systematikdaten gegeben, und diesen ersten Schritten könnten
viele weitere folgen.
Aber: Man wird kein neues
Verfahren finden, das dann in
derselben Weise in allen Online-Katalogen zum Einsatz kommen
könnte. Besonders gilt das für solche, die sich auf
irgendeine Art von Wörterbuchdatei und/oder auf proprietäre
Algorithmen stützen - der bunte Flickenteppich
würde also noch größer und bunter. Weil aber schon
längst
lokale Bestände für viele Fragen unzureichend sind,
könnte man eine Stärkung der Verbundkataloge und deren
Einsatz auch im OPAC-Bereich ins Auge fassen, was gelegentlich schon
vorgeschlagen wurde (Suche im Verbund, Ausleihe im Lokalsystem). Die
wenigen Verbunddatenbanken bieten eher eine
Chance auf Vereinheitlichung von Suchkriterien und -verfahren, und ein
effektiver Austausch von Datenelementen ist nicht mit beliebig vielen
Partnern durchführbar. Diese Sichtweise wird sogar zwingend, wenn
auch unselbständige Veröffentlichungen einbezogen werden und
wenn man die Anreicherung durch Inhaltsverzeichnisse und weiteres
Wortmaterial in Betracht zieht.