Überlegungen zur Phrasen-Indexierung


Neues Indexmodell für allegro-Datenbanken

Die bloße Stichwort-Indexierung wird hin und wieder als unzureichend empfunden, je größer die Datenmengen werden. Oft wird eine Ergebnismenge dann zu groß, selbst bei UND-Kombination von zwei oder drei Wörtern, oder die Bildung der Erg.Menge funktioniert gleich gar nicht mehr.

Leicht gelangt man zu der Vermutung: Beim Suchen nach zwei oder drei Wörtern sind diejenigen Treffer besonders relevant, bei denen diese Wörter in der eingegebenen Reihenfolge und direkt hintereinander vorkommen. Die Suche nach solchen Vorkommnissen wird oft als "Phrasensuche" bezeichnet.

Zu unterscheiden ist hierbei, wie auch sonst immer, zwischen der "known-item"-Suche (bei der die eingegebene Phrase mit Sicherheit im Titel vorkommt) und der sachlichen Suche (bei der man davon nichts weiß, sondern es nur vermutet). Beide Suchsituationen könnten profitieren von einer gut funktionierenden Phrasensuche, die erste aber viel mehr als die zweite, und umso mehr je größer die Datenbank, wie sich an nachfolgenden Beispielen aus dem VK schnell zeigen wird.

Das Verlangen nach Phrasensuche findet besonders aber wohl neue Nahrung durch die Erfahrungen mit bekannten Suchmaschinen, wo man ja mittels Anführungszeichen eine Wortfolge als solche präzise suchen lassen kann. Sogar wenn man keine Anführungszeichen setzt, dann scheint manche Suchmaschine diejenigen Treffer nach oben zu fördern, in denen die eingetippten Wörter nicht nur als solche vorkommen, sondern auch in der eingetippten Abfolge. Die offensichtlich begrüßte Entdeckung der Einfachheit (nur ein einziges Eingabefeld, in das man eintippt, was einem gerade einfällt) legt die Forderung nahe, so etwas auch für Bibliothekskataloge zu realisieren. Und in der Tat: hätte man eine Phrasensuchfunktion, könnte man sicher z.B. die damit zu findenden Einträge in der Ergebnisliste denen voranstellen, in denen die einzelnen Wörter nicht direkt nebeneinander auftreten.


Volltextdaten, wie sie von Suchmaschinen indexiert werden, enthalten mit größerer Wahrscheinlichkeit eine gesuchte Wortkombination als Titel, weil ja im Text die verschiedensten Formulierungen für ein und dieselbe Sache auftreten können, in unterschiedlichen Schreibweisen und Flexionen. Die Trefferchancen sind daher von vornherein besser als bei bloßen Titeldaten:

Katalogdaten bestehen, was retrievaltaugliches Wortmaterial angeht, aus wenig mehr als Titeln. Und Titel bestehen überwiegend nicht, wie Texte, aus Sätzen, sondern aus Nominalphrasen. Das sind im Kern immer Kombinationen von Adjektiv und Substantiv oder von zwei oder mehr Substantiven. Sonderfall des zweiten Typs sind Personennamen in Titeln. Im Englischen hat man kaum Unterschiede zwischen diesen Fällen, für deutsche Titel ist es aber nützlich, sich die Sache etwas genauer zu überlegen und dazu Beispiele anzuschauen. Das soll hier geschehen. (Viele Beispiele zum Ausprobieren bietet die Startseite der Demo-Datenbank zum allegro-Neutralformat.)

 

1. Kombination Adjektiv-Substantiv

Beispiel "Französisches Gedicht". Es folgt eine Liste von Titeln, die bei einer booleschen UND-Suche herauskommen, und zwar bei Eingabe von

"tit franzoes? and gedicht?"

also mit Trunkierung beider Wörter. Man erkennt, welche Treffer ohne Trunkierung nicht dabei wären. Die Titel sind so wiedergegeben, wie sie tatsächlich in den Daten vorliegen – von etwas anderem kann man ja gar nicht ausgehen!

Hervorgehoben sind jene, in denen die beiden Wörter hintereinander vorkommen. Nur diese Treffer würden bei einer Phrasensuche erscheinen. Aber auch diese nur dann, wenn die Phrasensuche nicht ganz primitiv wäre: man achte auf die grammatischen Formen beider Wörter.

 

Deutsche und französische Gedichte

 

Auswahl von Gedichten der neueren französischen Poesie

 

Gedichte und Chansons : französisch und deutsch

 

Interpretationen französischer Gedichte

 

Französisches Vokabularium zu Sprechübungen auf

      Grund der Hölzelschen Bilder (Frühling, Sommer,

      Herbst, Winter) : Für d.1. bis 3. Jahr französischen Unterrichtes

      unter Beifügung passender Lieder u. Gedichte

 

Sammlung französischer und englischer Gedichte zum

      Auswendiglernen

 

Auswahl französischer Gedichte, für den

      Schulgebrauch zusammengestellt und erläutert

 

Mallarmé, Stéphane

Sämtliche Gedichte / Mallarmé, Stéphane : Französisch u. Deutsch

 

Eine Stimme vom französischen Carmel : ausgewählte Gedichte

 

Das trunkene Schiff und andere französische Gedichte

      von Chénier bis Mallarmé

 

Das französische Gedicht des neunzehnten und

      zwanzigsten Jahrhunderts

 

Beitr. zur Textkritik d. ältesten französischen gedichts

 

Französische Gedichte

 

Kleines französisches Lesebuch nebst Gedichtsammlung

 

Gedichte französisch - deutsch

 

Gelegenheitsgedichte - Übersetzungen französischer

      Lyrik. - Drei Gedichte Lord Byrons - Spanische

      Romanzen

     

¬Der¬ deutsch-französische Krieg 1870-1871 in

      Liedern und Gedichten

 

Nouvelles poésies françaises : eine Auswahl französischer Gedichte der Gegenwart

 

Marianische Legenden und Gedichte : größtentheils nach alten lateinischen,

      italienischen, spanischen, französischen und

      deutschen Darstellungen und Original-Poesien

 

Die Elemente des Gedichtes : e. Einf. in d. Interpretation französischer Lyrik

 

Vergleichende Studien zu Theorie und Praxis des

      politischen Gedichtes im franzoesischsprachigen

      Schwarzafrika und in Deutschland

 

Rilkes franzoesische Gedichte im Kontext seines

      Spaetwerks

 

Eraclius : deutsches und französisches Gedicht des zwölften

      Jahrhunderts

 

Gedichte des französischen Symbolismus

 

Heinrichs von Friberg Fortsetzung von Gottfrieds

      Trsitan. Gottfrieds Minnelieder. Die alten

      französischen, englischen, wallisischen und

      spanischen Gedichte von Trsitan und Isolde

 

Alkohol : Gedichte franzoesisch-deutsch

 

¬Das¬ französische Gedicht von André Chénier bis

      zur Gegenwart

 

Auslese französischer Gedichte

 

Gedichte u. Geschichten im Französischunterricht

 

Gedichte in französischer Sprache

 

Verschiedene Neuigkeiten den jetzigen Krieg

      betreffend : so bestehen in einer Prophezeyhung auf den König

      von Preussen, einer Unterredung des französischen

      Prinzen Clermont mit einem gefangenen Preußischen

      Hußaren ; dann drey andern schönen Gedichten

 

Französische Weihnacht : Erzählungen, Gedichte, Lieder

 

Choix de poésies françaises : Sammlung französischer Gedichte

 

La partition : Gedichte aus der französischen Schweiz ;

      französisch-deutsch

 

Les¬ visions de la vie : eine franzoesische Gedichtsammlung

 

Vingt-cing poèmes en prose : (spleen de Paris) ; [französisch-deutsch]

      Fünfundzwanzig Gedichte in Prosa

 

Anthologie motivgleicher franzoesischer Gedichte

 

Moralisch-satirische Gedichte Walters von

      Chatillon : aus deutschen, englischen, franzoesischen und

      italienischen Handschriften

 

Das franzoesische Gedicht vom ¬15. bis 18.¬

      Jahrhundert

 

Gedichte des franzoesischen Symbolismus in

      deutschen Uebersetzungen

 

Vergils Georgica und die französischen Gedichte

      über das Landleben aus der zweiten Hälfte des 18.

      Jahrhunderts

 

Kluge Unterredungen der in Frankreich berühmten

      Mademoiselle de Scudery. Aus dem Französischen in

      das Teutsche gebracht, und mit beygesetzten

      Figuren und Gedichten erweitert durch die bey den

      Blumen=Hirten an der Pegnitz so genannte Erone

 

Das tränennasse Fahnentuch der Freiheit : 1789, 1989 ; Gedichte zur 200-Jahrfeier der

      Französischen Revolution

 

Auserlesene Gedichte : mit beigefügtem französischem Texte

 

Des¬ berühmten Poeten Nicolai D'Espéraux Boileau

      Satyrische Gedichte - aus dem Französischen in

      Teutsche Verse übersetzet und mit einem Anhange

      vermehret von Caspar Abeln

 

Die Gnade : ein Gedicht ; Aus dem Französischen des Herrn Racine

 

Vermischte Gedichte : Aus dem Französischen des durchlauchtigen

      Verfassers der Brandenburgischen Denkwürdigkeiten

 

 

Man findet also, wie gesagt, alle diese Titel über die Stichwortsuche, wenn man 
   
tit französisch? and gedicht?

eingibt. Unter den 138 Treffern sind dann etliche dabei, die wohl nicht relevant sind. Dies ist eine Beobachtung, die das Empfinden nährt, man brauche eine Phrasenindexierung. Bei der "known-item"-Suche ist dies unmittelbar deutlich: wenn ich genau weiß, es kommt im Titel die Kombination "französische Gedichte" vor, evtl. in einer anderen Flexionsform, dann sind dies genau die oben hervorgehobenen Titel, und diese sollte das System dann alle finden können. Bei der sachlichen Suche hingegen können einige der oben nicht hervorgehobenen Titel durchaus sehr relevant sein - doch sie würden bei keiner noch so "intelligenten" Phrasensuche erscheinen, weil die beiden Wörter nicht nebeneinander stehen oder die Reihenfolge eine andere ist.

Man erkennt also: Mit einer Phrasenindexierung wird man keinesfalls alle sachlich relevanten Titel zum Thema "französisches Gedicht" finden können, und zwar aus mehreren Gründen:

 

o Flexionsformen (falls Trunkierung nur beim letzten Wort der Phrase möglich)

o Reihenfolge der Wörter (kann evtl. umgekehrt sein)

o Andere Wörter zwischen den gesuchten

o Synonymie (Lyrik, Poesie, poème, Vers...)

 

Der letzte Grund trifft genauso für eine Stichwortsuche zu.

Nochmals: Die fett hervorgehobenen Einträge sind diejenigen, die bei einer geschickt gestalteten Phrasensuche allenfalls gefunden werden können. Aber "geschickt gestaltet" - wie soll man sich das vorstellen? Offensichtlich wären dabei vor allem die Flexionsformen irgendwie unwirksam zu machen, zusätzlich zur sonst üblichen Groß-/Klein-Umwandlung und Umlautauflösung. Das Abschneiden von Endungen ist im Deutschen freilich schwierig: nicht immer ist z.B. "en" eine Infinitiv-Endung, nicht immer ist "s" ein Plural, nicht immer ist "er" ein Komparativ. Schwieriger noch: manche Wörter erleiden bei Flexion eine Umlautung, z.B. Arzt - Ärzte, können - konnte, alt – älter, Natur - natürlich. Nur Zwischenschaltung von Wörterbuchmethodiken könnte dagegen etwas tun. Sobald mehrere Sprachen im Spiel sind, eine unrealistische Vorstellung. (In den slawischen Sprachen ist es übrigens noch schlimmer.)

 

2. Kombination von Substantiven

Eine zweite Kategorie von Titeln, die sich für eine Phrasensuche anbieten, sind solche, bei denen zwei oder drei Substantive nebeneinander vorkommen. Weiß man z.B. genau: im Titel kommt information processing technology  vor, findet man im gesamten VK nur 4 Titel, für die das zutrifft. Die kombinierte UND-Suche der drei Wörter im Stichwortregister liefert aber 27 Treffer, fast das siebenfache also. Jedoch: Will man den Begriff als Thema recherchieren, sind sicher noch viele andere relevant, die vielleicht nur eines dieser Wörter, oder gar keins im Titel enthalten!

Zu bedenken ist auch: Für deutsche Titel ist die Phrasensuche nach kombinierten Substantiven, mit Ausnahme von Namen, kaum bedeutsam, weil ja anders als im Englischen die Substantiva meistens zu einem Wort verkoppelt werden: "Informationstechnik" statt "information technology", und dafür reicht die normale Stichwortsuche. (Hier entsteht dann schnell der umgekehrte Wunsch: die Komposita-Zerlegung. Diese ist aber ohne trickreiche Wörterbuchdatenbank nicht zu bewerkstelligen, mit Algorithmen geht es nicht.)

Ein gewisses Problem bei einer Phrasenindexierung sind die Bindestrichwörter (oder Bindestrich-Wörter?): soll man sie als zwei Wörter oder als eines behandeln? Beides zu tun wäre noch schwieriger als bei der reinen Wortindexierung, denn es könnten ja auch mal zwei Bindestrichwörter nebeneinander vorkommen, und es gibt die Fälle, wo beide Schreibweisen vorzufinden sind.

Aber noch etwas: Substantive kommen oft (in deutschen Titeln fast immer) nicht unvermittelt nebeneinander vor, sondern es stehen "Füllwörter" dazwischen, mindestens ein "und", nicht selten "des" oder "of", vielleicht noch ein Artikel ("und die", "of the") oder eine Präposition mit oder ohne Artikel ("von", "für die", ...) . Eine geschickte Phrasensuche sollte derartige Wörter, deren es ja nur endlich viele gibt, vielleicht ganz ausblenden! Die Verbindung mit "und" ist problematisch: die beiden Substantive können meistens auch in der anderen Reihenfolge auftreten, mit gleicher Bedeutung.  Mit Adjektiven kann das jedoch auch mal passieren: "Gedichte in französischer und deutscher Sprache".

 

Beispiele: 

find tit Bau? and Umwelt? : 152 Titel enthalten die zwei Substantive, nur 14 in dieser Abfolge. (Nur 47 sind es, wenn "Bauen and Umwelt" gesucht wird.) Sachlich relevant sind aber ganz sicher mehr als nur diese. Man sieht ferner, wie die Phrase "Bauen und Umwelt" als solche nicht nur in reiner Form auftritt! Die Suche nach genau der Phrase "Bauen und Umwelt" wäre folglich nur bei einem "known-item search" zielführend.

Immerhin, die hier fett hervorgehobenen Titel könnten bei geeigneter Programmierung in der Ergebnisliste oben erscheinen, was nicht schlecht wäre:

 

Bau- und Umweltaspekte, Bohrtechnik.

Bauen als Umweltzerstörung

Bauen für alt und jung : Dächer, gestaltete Umwelt

 

Bauen für Behinderte in Hessen : der Hessische Minister des Innern

   informiert über: Behindertengerechte Umwelt (Bauen, Wohnen,

   Verkehr, Technische Hilfen)

 

Bauen in einer veränderten Umwelt

 

Bauen und Umwelt : 4. Landes-Symposion Bauen u. Umwelt

 

Bauen und Umwelt : [Arbeitsplätze für die Zukunft] ; Dokumentation ;

   Fachtagung d. IG Bau - Steine - Erden

 

Bauen und Umwelt : eine Ausstellung der Akademie für Umwelt und

   Energie ; Ausstellungskatalog ; [dieser Katalog dokumentiert die Ausstellung

   "Bauen und Umwelt"]

 

Bauen & [und] Umwelt : eine Initiative der Gewerkschaft der Bau- und Holzarbeiter

 

Bauen und Umwelt heute und morgen : Baubehoerden-Informationstagung unter

   Beteiligung der Bauwirtschaft ; am 20. und 21. September 1994 in Goettingen

 

Bauen und Umwelt in Lippe : Daten, Fakten, Meinungen

 

Bauen und Umweltschutz

 

Bauen und Wohnen im Sauerland : eine Fibel fuer alle, die bauen, renovieren

   und ihre Umwelt gestalten wollen

 

Bertelsmann Baukatalog 1995/96 : Information, Baumaschinen, Geraete, Gerueste,

   Schalungen, Grundbau, Wasserbau, Strassenbau, Aussenanlagen, Baumaterialien,

   Halbzeuge, Bautenschutz, Rohbau, Ausbau, Haustechnik, Fertigbau, Ausstattung,

   Bauen und Umwelt ; (wer liefert das Produkt/die Dienstleistung X?, oder wo

   bekomme ich die genaue Adresse, die Telefon- oder Telefaxnummer?)

 

Bewohnte Umwelt : Betrachtungen zum Bauen und Wohnen in den Niederlanden

 

Dokumentation Bauen und Umwelt : Arbeitsplätze für d. Zukunft ; Fachtagung d.

   IG Bau, Steine, Erden

 

Dokumentation der Öffentlichen Anhörung des Ausschusses für Umwelt und Technik

   des Gemeinderates der Landeshauptstadt Stuttgart zum Thema Energiesparendes Bauen :

 

Empfehlungen und Forderungen zu den Bereichen Bevölkerung, Siedlung und Umwelt,

   Wirtschaft, Arbeit und Umwelt, Bauen und Umwelt, Kommunikation, Beratung und

   Umwelt : Ergebnisse d. Sektionsarbeit d. Akad. anläßl. d. Fachtagung Dorf - Landschaft

   - Umwelt 'Chancen für Mensch und Natur'

 

Energie + [und] Umwelt '82 : mit 4täg. Symposium u. 2. Saarbrücker Energieforum ;

   internat. Messe für Energieeinsparung, Energietechnologie, Umweltschutz u.

   umweltfreundl. Bauen

 

Energie + [und] Umwelt '84 : internat. Messe für Energietechnologie, Energieeinsparung,

   Umweltschutztechnik u. umweltfreundl. Bauen ; mit 3. Saarbrücker Energieforum

   und Symposium ; Saarbrücken, Messegelände, 17.-21. Okt. 1984

 

Freizeit und Umwelt : Vortragsveranstaltung der Deutschen Gesellschaft für Freizeit

   anläßlich des Kongresses "Bauen und Umwelt" in Frankfurt/Main am 14. November 1979

 

Im Spiegel der Medien - Bauen und Umwelt : Arbeitsplätze für d. Zukunft ;

   e. Dokumentation

 

Industrieareal Sulzer- Escher Wyss : Umwelt und Bauen: Wertschoepfung durch

   Umnutzung ; Fallstudie 95

 

Jubiläumskongress Elektromagnetische Felder, Einflüsse auf Mensch und Umwelt, Folgen

   für das Gesunde Bauen und Wohnen : Kongresszentrum Gmunden, 4. - 6. Oktober

   1990 ; 10 Jahre Österreichisches Institut für Baubiologie

 

Komm, wir bauen eine Stadt! : ein Modellbausatz zur Umwelt und Zeit Jesu

 

Kostenguenstiges und oekologisches Bauen : Dokumentation einer gemeinsamen

   Fachveranstaltung des Ministeriums der Finanzen, des Ministeriums fuer Umwelt

   und Forsten sowie den deutschen Bausparkassen am 24. August 1994 in der

   Staatskanzlei Rheinland-Pfalz

 

Kriterien für das ökologische Bauen : Studie im Auftrag des Ministeriums für

   Natur, Umwelt und Landesentwicklung des Landes Schleswig-Holstein, Abt.

   Ökologische Technik und Ökologische Wirtschaft

 

¬Die¬ Kunst eine Stadt zu bauen : Der Einfluß d. gebauten Umwelt auf d.

   Erlebniswelt d. Menschen

 

Mittelfristiges Forschungsprogramm "Landes- und Stadtentwicklung" : 1983

   - 1985 ; Ziel: Planen, Bauen u. Gestalten für e. lebenswerte Umwelt

 

Modernisierung der Kommunalverwaltung : Evaluierungsstudie zur

   Verwaltungsmodernisierung im Bereich Planen, Bauen und Umwelt

 

Modernisierung der Kommunalverwaltung im Bereich Planen, Bauen und Umwelt

   : Arbeitsschritte und Ergebnisse 93


Nachbarschutz im Bau-, Umwelt- und Zivilrecht

Oekologisch orientiertes Planen und Bauen : Modellvorhaben des Ministeriums

   fuer Umwelt und Forsten Rheinland-Pfalz


Ökologisches Bauen : beispielhafte Förderprojekte der Deutschen

   Bundesstiftung Umwelt


Planen & Bauen für die Gesellschaft : Dächer, gestaltete Umwelt


Planen und Bauen für Behinderte : Grundlagen für d. Gestaltung e.

   hindernisfreien baulichen Umwelt


Planen, Bauen, Umwelt & Verkehr


Umwelt elektronisch messen : Geräte selber bauen zur Messung von

   Wasserqualität, Sauerstoff, Chlor, Radioaktivität, meteorolog. Daten


Umwelt und Nahrungsqualität : Belasten die Bauern die Umwelt? 

 

Vermessungskunde für den Planungs-, Bau- und Umweltbereich

Wir bauen unsere Stadt : Kindergarten- u. Vorschulprogramm. Umwelt

   unter d. Lupe. Ein Kooperationsspiel für 2-6 Kinder ab 5 Jahren

 

Was sonst noch alles nicht herauskäme bei einer Phrasensuche? Hier nur drei weitere Beispiele von vielen:

Umweltorientiertes Planen und Bauen

Umweltbewußtes Bauen in verschiedenen geografischen Regionen

Verdichtete Bebauungsstrukturen als kinderfreundliche Wohnumwelt in der Stadt

Die Stichwortsuche mit trunkierten Wörtern, umwelt? and bauen?, liefert immerhin 152 Treffer, darunter die genannten...

Dies relativiert beträchtlich den Wert des Phrasenzugriffs bei der sachlichen Suche. Wird jedoch einer dieser Titel gezielt gesucht (known-item search), findet man ihn per Phrase womöglich schneller als mit "find bauen? and umwelt?"

 

Vermutungen

Bedenkt man die Probleme und betrachet man Beispiele, dann verstärkt sich die oben schon formulierte Vermutung, eine Phrasensuche nicht als solche und für sich allein in den Vordergrund vor die boolesche Wortsuche zu stellen. Sie könnte jedoch oft Nutzen stiften, wenn man, ohne den Nutzer zu einer besonderen Eingabe aufzufordern, die eingetippten Wörter zuerst einer Phrasensuche zuführt, dann einer UND-Suche am Stichwortindex. (Vielleicht bei Null oder wenig Treffern auch die umgekehrte Reihenfolge der Wörter.) Aber die Ergebnisse der Phrasensuche sollten dann die Ergebnisliste anführen, was der Nutzer als höhere Gewichtung wahrnähme, weil diese Treffer u.U. öfter mal eine bessere Relevanz aufweisen.

Wichtige Anmerkung: Anders sieht es bei Suchmaschinen mit Volltextsuche aus! Im Volltext kann durchaus eine gesuchte Phrase mal irgendwo vorkommen, auch wenn sie im Titel nicht oder nicht in der gesuchten Form vorkommt. Die Trefferwahrscheinlichkeit ist also zwangsläufig höher, die Zahl der Nieten freilich auch.
Bedenkt man die oben erwogenen Manipulationen, denen man die Wortfolgen zu unterziehen hätte, um gute Phrasen-Suchergebnisse zu ermöglichen, dann ergibt sich daraus: ein Phrasenregister zum Blättern wäre kaum sinnvoll (herausgenommene Füllwörter, abgeschnittene Endungen...). Ein brauchbarer Phrasenindex wäre folglich eine rein interne Angelegenheit. Die Nutzereingabe jedoch wäre einer weitaus komplizierteren Vorbearbeitung zu unterziehen als bisher üblich, und eine interne Suchlogik hätte es zu übernehmen, die Suche in mehr als einer Weise mit Beteiligung mehrerer Register auszuführen und die Ergebnisse mit neuer Methodik zu gewichten, statt sie schlicht alphabetisch oder chronologisch zu sortieren.
(Ähnliche und weitere Kriterien für ein Relevanz-Ranking werden im Pica-System schon angewendet.) Nachvollziehbarkeit der Ergebnisse bliebe auf der Strecke (wie man schon bei Pica manchmal merkt), doch ist der Bedarf dafür wohl sehr gering, sonst wäre die Akzeptanz bekannter Suchmaschinen nicht so hoch.

In einem Großversuch wurde die VK-Datenbank mit einem Phrasenzugriff ausgestattet. Mit 15 Mio. Titeln sollte dies ein geeignetes Versuchsobjekt sein. 
Hier der Einstieg für die gezeigten Beispiele:

 

1. französisches Gedicht         Bauen und Umwelt


   
Und hier das Zweiwort-Phrasenregister dazu (damit man mal sieht, was dahintersteckt)

2. französisches Gedicht         Bauen und Umwelt

    Die Kombinierte Stichwortsuche dagegen:

3. französ? and gedicht?           Bauen? and Umwelt?


Hinweis:
Die Suchfunktion ist hier noch nicht darauf eingerichtet, bei der kombinierten Stichwortsuche diejenigen Titel nach oben zu bringen, in denen das Wortpaar auftritt.
Die Indexparameter dazu sind nicht übermäßig kompliziert. Sie lassen aber die Indexdatei in der Größe nicht unmäßig anschwellen, weil Artikel und andere Füllwörter ganz wegfallen und die eigentlichen Wörter auf je 6 oder weniger Buchstaben reduziert werden. Das Phrasenregister der 15 Mio. Titel hat 86 Mio. Einträge. Das ist VIEL weniger, als wenn man wirklich alle Wörter und alle in voller Länge paarweise oder gar in Dreiergruppen indexieren wollte. Ganz grob bestätigt sich die Vermutung: Die Frequenz von Wortpaaren ist in sehr vielen Fällen erheblich geringer als die Frequenz der einzelnen Wörter.


B. Eversberg, 2004-12-22 / 2006-02-28