Der folgende Beitrag, von Bernhard Eversberg im Rahmen einer zeitweiligen Arbeitsgruppe der Konferenz für Regelwerksfragen verfaßt, wurde von der Konferenz auf ihrer 5. Sitzung Ende März zustimmend zur Kenntnis genommen. Der Arbeitsgruppe haben außer Bernhard Eversberg Cornelia Katz (BSZ), Dr. Volker Henze (DDB) und Dr. Klaus Haller (BSB) angehört.
Zusammenfassung
Die Umlautbuchstaben stellen eine Eigentümlichkeit der deutschen Schriftsprache dar, zu der es in anderen Sprachen keine Parallele gibt, und zwar ist das Besondere daran die Gleichwertigkeit eines Sonderbuchstabens mit einer Buchstabenkombination. Daraus ergibt sich das Problem der Ordnung oder Indexierung in Katalogen und Verzeichnissen, vor allem Namensverzeichnissen, weil Namen in beiden möglichen Schreibweisen auftreten und auch so erfaßt werden. Hinzu kommt, daß es in den Katalogdatenbanken in großem Umfang Altdaten mit aufgelöst erfaßten Umlauten gibt, da man in früheren Zeiten mit eingeschränkten Zeichensätzen auskommen mußte. Auch die Norm DIN 5007 "Ordnen von Schriftzeichenfolgen" (1962) trägt diesem Problem Rechnung, indem sie für Namensverzeichnisse die Gleichung ä = ae vorschreibt. Lexika und Wörterbücher dagegen sind nicht primär Namensverzeichnisse, und sie wenden aus guten Gründen die Gleichung ä = a an, die auch überall im Ausland beim Ordnen deutscher Namen gilt. Für den Zugriff zu Online-Bibliothekskatalogen bedeutet dies, daß man in Deutschland nach "mueller", im Ausland in aller Regel nach "muller" suchen muß. Zunehmend wird heute grenzüberschreitend gesucht, per WWW und Z39.50, und aus den unvermeidlichen Irritationen ausländischer Nutzer mit deutschen Datenbanken und umgekehrt erwächst der Eindruck, man sollte oder müsse die deutsche Sonderregel aufgeben.
Die vier grundsätzlich möglichen Lösungen des Ordnungsproblems werden diskutiert. Es bestätigt sich, daß die heute praktizierte dem Material und den OPAC-Erwartungen am besten gerecht wird. Zur Verbesserung des grenzüberschreitenden Zugriffs bietet sich nur, als fünfte und neue Lösung, die Doppelindexierung an: Jeder "Müller" wird sowohl als "muller" wie auch als "mueller" indexiert. Die gewohnten Zugriffsqualitäten bleiben dann erhalten. Vollständig wird das Problem auch dadurch nicht gelöst: Zugriffe mit "muller" finden noch immer die (echten und falschen) "Muellers" nicht, von denen es aber in manchen Altdatenbeständen sehr viele gibt. Entsprechendes gilt für Titelwörter. Mehr ist jedoch durch kein Verfahren erreichbar, es sei denn Dreifachindexierung (jedes "ue" auch noch als "u"), aber dadurch würden wohl zuviele unsinnige Einträge entstehen.
Für deutsche OPACs ist dringend zu empfehlen, im Prinzip bei der bisherigen Regelung zu bleiben, u.a. weil eine Änderung wohl nicht flächendeckend durchzusetzen ist, aber auch weil sie die einzige ist, bei der jeder Name zuverlässig mit einem Zugriff gefunden wird, gleich wie er erfaßt wurde. Wo es durchführbar ist, sollte man aber die Doppelindexierung erwägen.
Kein Handlungsbedarf besteht in der Frage der Codierung der Umlaute. Bisher wird, hier wie im Ausland, das Zeichen ü einheitlich erfaßt, unabhängig von der Sprache. In Deutschland gibt es dafür einen eigenen Code, in den MARC-Daten wird die Kombination Trema+u erfaßt. Dies ist eindeutig austauschbar. Würde man im Zuge der UNICODE-Einführung dies ändern, also für finnische, ungarische, türkische und sonstige ü-Zeichen eine andere Codierung einführen als für das deutsche ü, dann würde damit eine Inkonsistenz geschaffen, weil man die Altdaten nicht umarbeiten kann. Wenn man die Doppelindexierung einführt, wird das Suchproblem der ausländischen Namen entschärft, so daß auch von daher gesehen eine differenzierende Codierung keinen Nutzeffekt hätte.
Ein spezifisch deutsches Problem
Die deutschen Umlaute ä, ö und ü sind als Laute jünger als die Grundvokale: sie entstanden in den alt- und mittelhochdeutschen Perioden der Sprachgeschichte. Nachsilben mit dem hellen 'i' wandelten langsam die drei dunklen Laute um - daher der Name, und daher noch heute die Vokalvarianten bei Wörtern mit gleichem Stamm (z.B. Wort -- Wörter). Erst spät wurden die umgelauteten Vokale auch in der Schrift sichtbar gemacht, und zwar bildeten sich mehrere unterschiedliche Praktiken für ihre Notierung heraus. Noch in Drucken des 19. Jahrhunderts kann man z.B. Umlaute durch ein kleines, über dem Buchstaben schwebendes 'e' dargestellt sehen. Verbreitet, erhalten und verfestigt haben sich endlich zwei Konventionen: die Pünktchen über dem Grundbuchstaben bzw. das ihm folgende 'e'. Die Gleichwertigkeit dieser zwei verschiedenen Schreibweisen stellt kein Problem für das Lesen und Verstehen dar, jedoch für das Ordnen von Wörtern, insbesondere aber Namen.
Ein analoges Problem gibt es in anderen Sprachen nicht. Diakritische Zeichen treten zwar in vielen Sprachen auf, doch das Spezifikum des Deutschen ist eben die orthographische Gleichwertigkeit des modifizierten Buchstabens mit einer Kombination aus zwei Buchstaben.
Für die Datenverarbeitung kommt noch das Problem der Codierung
hinzu. Die genau gleich aussehenden Sonderbuchstaben der nordischen Sprachen,
des Ungarischen, Türkischen, Slowakischen können in diesen Sprachen
nicht durch Kombinationen ersetzt werden. In weiteren Sprachen, z.B. Französisch
und Spanisch, haben die Pünktchen nur die Bedeutung, die getrennte
Aussprache aufeinanderfolgender Vokale zu kennzeichnen. Die Frage ist zu
diskutieren, ob diese Unterschiede bei der Datencodierung berücksichtigt
werden sollten, und ob für den Datenaustausch daraus Probleme erwachsen,
insbesondere im Hinblick auf UNICODE. Sind unsere Daten jetzt und in Zukunft
kompatibel, wie sehen die im Ausland produzierten Daten aus, was erwartet
man dort von uns, wie sind die Kommunikation per Z39.50 und der Zugriff
über WWW davon betroffen?
Zuerst werden die Ordnungsfragen behandelt.
Vier mögliche Ordnungsmethoden
Ohne die besagte Besonderheit, d.h. wenn die Gleichung ä = ae nicht existierte, gäbe es nur zwei verschiedene Ordnungsmethoden:
Da wir nun aber die besagte Gleichwertigkeit haben, gibt es für das alphabetische Ordnen deutscher Umlautbuchstaben theoretisch vier verschiedene Methoden:
1: GLEICHORDNUNG | 2: PUNKTE IGNORIEREN | 3: AUFLÖSEN | 4: SEPARIERUNG |
Guerrero
[Ausnahme!!] |
Gueldenstern | Gueldenstern | Gueldenstern |
Gueldenstern | Gueldner, B | Güldner, A | Gueldner, B |
Güldner, A | Guenther | Gueldner, B | Guenther |
Gueldner, B | Guerrero | Guenther | Guerrero |
Gulich | Güldner, A | Guerrero | Gulich |
Guenther | Gulich | Gulich | Güldner, A |
Vor einer Diskussion und Bewertung dieser Methoden lohnt es sich, Sinn und Zweck des alphabetischen Ordnens kurz zu beleuchten. Nicht nur ein Ziel wird damit verfolgt, sondern zwei verschiedene:
A. Wiederauffinden ermöglichen (präziser, schneller
Zugriff)
B. Zusammengehöriges zusammenführen (Ergebnismengenbildung,
browsing)
wobei B nicht immer gleich als Problem bewußt, aber kaum weniger
wichtig als A ist, und das zumal in Bibliothekskatalogen wie auch in Nachschlagewerken.
Und es ist der Punkt B, der die Entscheidung zwischen den vier Methoden
schwierig macht. Jede einzelne ermöglicht ein schnelles und sicheres
Auffinden, wenn
Benutzererwartungen
Die (vermuteten oder tatsächlichen) Erwartungen der Benutzer liegen bei Lexika etwas anders als bei Katalogen und Telefonbüchern:
Doch betrachten wir zunächst die Methoden der Reihe nach noch etwas genauer:
Methode 1 : Konsequente Gleichordnung
Sie hat die längste Tradition, wird aber heute wohl nirgends mehr benutzt. Die großen Bibliographien des 19. Jahrhunderts, Kayser und Heinsius, ordneten so (außerdem galt i=j und ij=y), aber auch die Deutsche Nationalbibliographie bis 1965 (!), d.h. erst die Einführung der EDV beendete diese Praxis zugunsten der Methode 3. (Das aus den alten Bibliographien zusammengeklebte "GV-alt" übernahm Methode 1.)
Die großen Enzyklopädien, Brockhaus und Meyer, verwendeten ebenfalls Methode 1, bis man in den späten 1970er Jahren, vermutlich ebenfalls bedingt durch die Datenverarbeitung, zu der weniger rigorosen Methode 2 überging.
Hauptproblem der Methode 1 ist natürlich, daß zwar immer ä durch ae ersetzbar ist, umgekehrt jedoch oftmals nicht. Vorwiegend betrifft dies fremdsprachige oder mehrteilige Wörter (Aero..., Mensaessen, Koeffizient, Hydroenergie, Duell, Guerilla), aber vor allem auch Namen (AEG, Israel, Coelho, Roermond, Bluebird, Buenos Aires, Sueton). Manchmal deuten oe und ue in Namen eine Dehnung an (Coesfeld, Suerbier) und keine Umlautung des Grundbuchstabens. Noch andersartige Ausnahmen treten bei der Gleichung ü = ue = u auf: Wörter und Namen wie Bauer, Heuer, sauer, teuer, Treuenbrietzen -- praktisch alles mit einem 'e' hinter 'au' oder 'eu'. Diese Ausnahmen kann keine Software alle zuverlässig erkennen, das konnten nur die menschlichen Redakteure der genannten Werke. Für Leser, die das Prinzip nicht kennen, sind in jenen Lexika (aber auch in den o.g. Bibliographien!) Caesar und Goethe die bekanntesten Problemfälle, weil sie keinen Ausnahmestatus erhielten, sondern immer hinter "Casanova" bzw. "Gotha" versteckt wurden. Durch den Übergang zur Methode 2 in den neueren Ausgaben sind Dichter und Diktator jetzt da zu finden, wo sie jeder sucht, und das Ausnahmeproblem entfällt. Nicht nur für Ausländer dürften die deutschen Lexika und Kataloge in der Regel heute doch etwas leichter zu benutzen sein.
Methode 2 : Ignorieren der Pünktchen
Dies ist die international übliche Verfahrensweise für Lexika, Telefonbücher und Kataloge, vor allem in der gesamten englisch oder französisch sprechenden Welt, und für Telefonbücher (aber noch nicht Kataloge) übrigens auch in der mehrsprachigen Schweiz. (Österreich: siehe Methode 4)
Rein formal und somit automatisierbar, ist ihr Hauptnachteil die Zerstreuung gleichlautender, aber verschieden geschriebener deutscher Namen. Für Lexika ein quantitativ eher geringes Problem, für Kataloge und Telefonbücher aber ein großes. Deshalb hat DIN 5007 (1962) ausdrücklich für Namensverzeichnisse die Regelung nach Methode 3 vorgesehen (Abschnitt 5.1.1.3 der Norm).
Für Telefonbücher käme bei Methode 2, würde sie angewendet, erschwerend hinzu: Die Verständigung erfolgt oftmals nur akustisch, wobei zwischen 'ae' und 'ä' kein Unterschied zu bemerken ist. Man müßte dann jedesmal die Schreibweise mit angeben oder aber in vielen Fällen an zwei Stellen nachsehen. Bei der DeTeMedien (zuständig für die Telefonbücher) sieht man einer solchen Änderung, wie durch Anfrage in Erfahrung gebracht wurde, nicht enthusiastisch entgegen, denn jede noch so kleine Änderung löst Proteste aus, und dies wäre wahrlich keine geringfügige.
Für Bibliothekskataloge in der heutigen Ausprägung als Datenbanken kommt erschwerend noch etwas ganz anderes hinzu, und zwar das Schlimmste, was es für Datenbanken gibt: Inkonsistenz. Es gibt in großem Umfang Altdaten aus Zeiten, wo die Systeme noch nicht mit Umlauten hantieren konnten. Man erfaßte folglich jeden Müller als Mueller. (Hätte man das konsequent so weiter gemacht, bräuchte man jetzt nicht über Veränderungen nachzudenken -- es wären gar keine möglich.) In nicht so großem Umfang, aber auch nicht vernachlässigbar, gibt es eine quasi "natürliche" Inkonsistenz: die Schreibweise auf den Titelblättern kann für einen Verfasser mal so und mal anders sein, für Titelwörter ebenfalls. Und Kataloge befolgen (immer rigoroser) das Prinzip der vorlagegetreuen Erfassung, Lexika erfassen ihr Wortgut normgetreu nach den Rechtschreibregeln.
Anmerkung zur DIN 5007: Eine Nachfrage bei der zuständigen Abteilung im DIN ergab, daß dort kein Plan besteht, die Norm zu ändern, d.h. die Sonderregel für Namensverzeichnisse abzuschaffen. Dies wird nur dann geprüft und ggf. durchgeführt werden, wenn ein Antrag dazu eingeht. Nach Lage der Dinge kann ein solcher Antrag nur aus dem Bibliothekswesen oder von der DeTeMedien kommen, denn andere größere Anwendungsbereiche gibt es nicht. Da nun die Neigung zu einer Änderung bei der DeTeMedien erkennbar gering ist, wird nichts passieren, solange auch der Bibliotheksbereich das Thema auf sich beruhen läßt.
Methode 3 : Auflösung
Sie ist die heute gängige Praxis der Bibliotheken (begründet durch die lange Zeit maßgeblichen "Preußischen Instruktionen"), aber auch die der Telefonbücher. Die Deutsche Bibliographie (Frankfurt) hat von Anfang an ab 1945 so sortiert. Leipzig zog erst, wie gesagt, 1966 nach. Die großen (zumeist inzwischen eingestellten) Zettelkataloge der Bibliotheken haben gleichfalls so gearbeitet, desgleichen das GV-neu. Der GK gibt sogar die Vorlageform der Namen gar nicht an, sondern nur die aufgelöste!
Speziell für unsere Katalogdaten ist entscheidend: Methode 3 beseitigt zwar nicht die künstliche und natürliche Inkonsistenz der Daten, neutralisiert aber ihren nachteiligen Aspekt: die Auswirkung auf das Auffinden und Zusammenführen. In Online-Katalogen gewährleistet die Zusammenführung der unterschiedlich geschriebenen Namen etwas sehr Wichtiges: bei dem äußerst häufigen Fragetyp Name+Stichwort kann man nur so sicher sein, routinemäßig alles zu "erwischen". Sonst müßte man oft eine Frage so formulieren: find (mueller or muller) and kernenergie.
Als Schwachpunkt muß man die im Sinne jener Sprachen falsche Einordnung der türkischen, ungarischen und finnischen Wörter und Namen ansehen. "Oezal" oder "Uecuencue" wird ein Türke so nicht suchen, vielleicht noch nicht einmal erkennen. (Vermutlich würden wir aber z.B. in einem türkischen Katalog einen Müller gar nicht finden!) Zahlenmäßig viel gewichtiger ist indessen die Zusammenführung von "Krämer" mit "Kraemer", "Förster" mit "Foerster" und "Müller" mit "Mueller".
Fazit: Unter beiden Aspekten, Wiederauffinden und Zusammenführung, ist die Methode 3 wohl die bestgeeignete für einen Katalog mit hohem Anteil deutschsprachiger Veröffentlichungen für ein mehrheitlich deutsches Publikum. Man muß auch bedenken: sie wurde ja in die PI und dann auch RAK eingeführt auf dem Hintergrund von über hundert Jahren Erfahrung mit Methode 1.
Methode 4 : Separierung
Aus der Entstehungsgeschichte der deutschen Umlaute wird verständlich, warum sich diese Methode, in anderen Sprachen durchaus üblich im deutschen Sprachbereich nirgends herausbildete -- sie ist geradezu kontra-intuitiv. In Österreich ist sie dennoch (orientiert an Ungarn?) seit ca. 1986 in den Telefonbüchern realisiert. Weil jedoch keinerlei Vorteile gegenüber den anderen Methoden zu erkennen sind, besonders im grenzüberschreitenden Datenverkehr, erübrigt sich wohl die nähere Erörterung.
Exkurs: Ist "Ordnen" noch ein zeitgemäßer Begriff?
Weil eine Datenbank anders als ein Zettel- oder Listenkatalog keine lineare Anordnung von Einträgen verkörpert, wird gelegentlich gemeint, man brauche im Zusammenhang mit Online-Katalogen vom "Ordnen" und von "Ordnungsregeln" gar nicht mehr zu reden. Das "Finden" steht im Vordergrund, und niemanden interessiert, wie das unter der Oberfläche abläuft; dort kann durchaus eine ganz andersartige, für Menschen gar nicht nachvollziehbare und in Katalogisierungsregeln nicht beschreibbare Ordnung herrschen. Solange ein Befehl wie z.B. "find müller,fritz" auch "Fritz Mueller" liefert, muß man über die Ordnung des 'ü' nichts mehr wissen, ganz anders als beim Zettelkatalog.
Ein voreiliger Schluß. Erstens sind schnelle Zugriffe überhaupt nur möglich, wenn es aufbereitete und geeignet geordnete Indexdateien gibt, und ohne durchdachte Regeln können diese nicht entstehen. Gute OPACs haben zweitens nicht nur einen Find-Befehl oder ein Formular zum Eintragen von Suchwünschen, sie zeigen auch die alphabetisch geordneten Register für das Browsing (äußerst hilfreich bei ungenauer Kenntnis der Schreibweise), und sie stellen auf Wunsch sortierte Trefferlisten her. Bei den angeblich so benutzerfreundlichen WWW-Katalogen dominiert das auszufüllende Suchformular, doch steckt dahinter nichts anderes als ein Find-Befehl. Man erhält meistens Ergebnisse, aber man sieht keinen Kontext, man sieht auch nicht, was man nur knapp verpaßte. Anders gesagt: die Präzision der Suche ist nicht einschätzbar. Ein alphabetisch sortiertes Register bietet mehr: man wird z.B. zwanglos auf abweichende Schreibweisen und auf Erfassungsfehler aufmerksam oder entdeckt überhaupt erst beim Browsing das, was man wirklich suchte. Das Suchformular ist das Paradigma des Datenbankprogrammierers, der von der Vorstellung einer konsistenten Datenbank ausgeht. Die sortierte Liste ist dagegen das Paradigma des Bibliothekars, dem die Komplexität und Uneinheitlichkeit des Materials bewußt ist und auch die unvermeidliche Unvollkommenheit der Erfassung. (Eine Telefonbuch-Datenbank, nebenbei bemerkt, muß unbedingt die Namen als alphabetisch geordnete Liste zeigen können, schon wegen der häufig praktizierten Abkürzung der Vornamen, jedoch auch, weil der Vorname dem Suchenden nicht immer bekannt ist -- wenn er dann aber die Liste sieht, fällt ihm dieser oft wieder ein.)
Das Reden über Ordnung ist, kurzum, unverändert wichtig und wird es auch bleiben. Man mag zwar bei Datenbanken präziser von "Indexierungsregeln" sprechen. Diese umfassen mehr, aber im Kern nichts grundsätzlich anderes.
Herausforderungen der Globalisierung
Handlungsbedarf durch UNICODE?
Der UNICODE-Standard ist für die Codierung von Textdaten gedacht. Das System hat einen, aber nur einen Code für das Zeichen ü, differenziert also nicht nach Sprachen -- die Zeichen sehen ja auf Bildschirm und Papier alle gleich aus. Es gibt aber einen zusätzlichen Code, 0308, für das Trema ("combining diaeresis" genannt, früher "non-spacing diaeresis"), damit man bei Bedarf auch solche Zeichen damit versehen kann, die als Kombination in UNICODE noch keine Aufnahme gefunden haben. Solche kombinierenden Codes gibt es auf der Codeseite 03xx auch für die anderen Diakritika. UNICODE schreibt vor, die kombinierenden Akzentzeichen bei der Eingabe hinter die zu akzentuierenden Zeichen zu setzen. Die gängige Gepflogenheit hier und auch im MARC-Bereich ist bislang die umgekehrte (Akzent vor dem Zeichen), doch das ist nur ein Konvertierungsproblem.
Es besteht die Möglichkeit einer Differenzierung: 'ü' nur für deutsche Wörter und Namen, 'u' mit nachgestelltem Trema für alle anderen Sprachen. Deutsche Daten könnten dann weiter nach Methode 3, ausländische aber nach Methode 2 indexiert werden. Davon ist aus sechs Gründen abzuraten:
Wenn ein ausländisches System per Z39.50 in einer deutschen Datenbank nach einem "Müller" sucht, wird es in aller Regel nach "muller" fragen und daher nichts oder sehr wenig finden. Das Konzept der Z39.50-Norm beruht nicht nur (wie das des Abfrageformulars) auf der Vorstellung, die Datenbanken seien inhaltlich konsistent, sondern sogar (noch naiver, ist man versucht zu sagen), verschiedene Datensysteme seien formal und inhaltlich kompatibel. Abfragen nach Identnummern mögen so gut wie unproblematisch sein, aber alles andere hat seine Haken und Ösen. Diese zu entschärfen oder abzubauen ist deshalb eine verdienstvolle Aufgabe, und die Einführung der Methode 2 in unsere Ordnungsregeln wäre ein nicht ganz kleiner Schritt in diese Richtung. Allerdings könnte ein kritischer Benutzer das Resultat auch so sehen, daß man endlich dieselben Probleme mit den deutschen Namen, die man überall in der Welt hat, dann auch bei uns einführt.
Schlußfolgerungen
Wie oben festgestellt und begründet wurde, ist Methode 3 einem OPAC in Deutschland am besten adäquat. Aus mehreren Gründen bleibt wohl keine andere Wahl, als es bei der bisherigen Sortierregel für Umlaute zu belassen:
Es bleibt nur das Dilemma mit der grenzüberschreitenden Suche per Z39.50, in den Web-Katalogen und Diensten wie dem KVK. Wir können den Rest der Welt hinsichtlich Umlautordnung nicht auf unser Gleis überleiten, soviel ist sicher. Es gibt aber immerhin softwaretechnische Möglichkeiten, das Hilfreiche zu tun, ohne das Bewährte und für uns Sinnvolle aufzugeben: