Informationsethik: 12/2011

12 Dezember 2011

Katalog und / ?oder? Suchmaschine

bzw. Hinweise darauf, was schief gehen kann, wenn eine Suchmaschine ein Katalog sein möchte:

Eine Bibliothek definiert sich über ihren Katalog

Ein Haufen von Büchern ist keine Bibliothek – die Bücher oder Dokumente müssen auch zugänglich sein und zugänglich werden sie, indem sie nach einem oder mehreren Ordnungsprinzipien verzeichnet werden und diese Aufzeichnung mit dem Standort des Dokuments verknüpft wird.

"Ein Bibliothekskatalog ist ein Verzeichnis von Publikationen (Medien) oder Sammlungen in einer Bibliothek. Traditionell sind vor allem Bücher verzeichnet. Zu unterscheiden sind der nach Verfassern und Elementen des Titels geordnete alphabetische Katalog, der systematisch oder nach Schlagwörtern geordnete Sachkatalog und der die Buchaufstellung verzeichnende Standortkatalog." (Wikipedia)

Ein Katalog ist also ein Verzeichnis.

Katalog (altgr. katálogos ‚Verzeichnis, Liste‘) bezeichnet
• Katalog (Literatur), literarische Form der Faktendarstellung der Antike
• Verzeichnis, allgemein eine systematische Zusammenstellung
• Bibliothekskatalog, die Bestandsliste eines Schrifttumsarchivs
• ... u.a.m.

(Wikipedia)

Es handelt sich um geordnete Listen, Nachschlageverzeichnisse, einen Überblick über den Bestand, ein nach einigen Kriterien - Autor, Titel, Impressum, Erscheinungsjahr, Schlagwort – geordnetes und durchsuchbares Verzeichnis, um eine ganz bestimmte definierte Einheit an ihrem Standort zu finden. Diese Einheit ist real, es handelt sich nicht um virtuelle im Raum kristallisierte Bilder als Zeichen, die gedeutet werden können, für etwas anderes. Es handelt sich (zumeist) um ein Buch.

Lesende Menschen der letzten Jahrhunderte sind in der Rezeption von linearen Texten geschult worden, das bedeutet, das Lesen ist – auf einer Zeitachse (man denke an die Romane von Dostojewski ;-)) - gleichzeitig ein Auslesen, ein Auswählen nach bestimmten Gesichtspunkten, um das Ganze zu erfassen.

(Wikipedia): Linearität von Texten wie z. B. Büchern liegt vor, wenn diese in einer bestimmten, linearen Reihenfolge geschrieben und gelesen werden. Ausprägungen von Linearität bei Texten sind beispielsweise:

• von Seite zu Seite oder von Blatt zu Blatt,
• von vorne nach hinten oder von hinten nach vorne,
• von Zeile zu Zeile oder von Spalte zu Spalte,
• von links nach rechts oder von rechts nach links,
• von oben nach unten oder von unten nach oben.

Dieser Linearität des Textes folgt die Bewegungsrichtung der Augen des Autors bzw. Lesers.

"Das World Wide Web oder WWW aus dem Englischen für: „Weltweites Netz“) ist ein über das Internet abrufbarer Hypertext-Dienst, bestehend aus elektronischen Dokumenten, die durch Hyperlinks miteinander verknüpft sind.

Zur Nutzung des World Wide Web wird ein Webbrowser benötigt, welcher die Daten vom Webserver holt und zum Beispiel auf dem Bildschirm anzeigt. Der Benutzer kann den Hyperlinks im Dokument folgen, die auf andere Dokumente verweisen, gleichgültig ob sie auf demselben Webserver oder einem anderen gespeichert sind. Dadurch ergibt sich ein weltweites Netz aus Webseiten. Das Verfolgen der Hyperlinks wird oft als Internetsurfen bezeichnet." (Wikipedia)

Mittels des Webbrowsers kann im weltweiten Netz der Webseiten "gesurft" werden – d.h. praktisch: Suchbegriffe werden in eine Suchmaschine eingegeben oder Adressen in die Adressenleiste einegegeben, die zu bestimmten Web-Seiten, nämlich Hypertexten, führen.

(Wikipedia): "Ein Hypertext ist ein Text, der mit einer netzartigen Struktur von Objekten Informationen durch Hyperlinks zwischen Hypertext-Knoten verknüpft. Hypertext wird in Auszeichnungssprachen geschrieben, die neben Format-Anweisungen auch Befehle für Hyperlinks beinhalten, die bekannteste ist die Hypertext Markup Language (HTML) für Internetdokumente.

Ein Problem beim Arbeiten mit Hypertext ist das gezielte Auffinden von Informationen. Während literate Menschen über Jahrhunderte in der Rezeption von linearen Texten geschult worden sind, begann man erst mit der zunehmenden Verbreitung des World Wide Web seit Mitte der 1990er Jahre den Umgang mit komplexen Hypertexten zu erlernen. Hilfsmittel wie Suchmaschinen und Suchfunktionen auf den Webseiten unterstützen den Nutzer.

Ein weiteres Problem ist das Navigieren in Hypertexten, da vor allem in den Anfangsjahren häufig eine vom Autor vorgegebene Lesestruktur fehlte. Heute verfügen Hypertexte in der Regel über eine ausgefeilte Navigation. Als Folge eines Übermaßes an Querverweisen kann ein sogenannter Information Overload, die Überflutung mit ungeordneten Informationen und eine Desorientiertheit im weit verzweigten Netz von Texten entstehen. Die Lesegewohnheiten spielen hierbei eine wichtige Rolle. So haben online-affine Nutzer weniger Schwierigkeiten damit, das Lesen eines Textes zu unterbrechen, um einem Querverweis zu folgen."

– diese Fähigkeit nützt allerdings nicht viel, wenn man auf der gezielten Suche nach einem bestimmten Dokument bis zur Bestellung des (endlich) gefundenen 5mal Verweisen folgen MUSS und am Ende der Querverweisreise nicht mehr weiß, welcher Band zu welchem Erscheinungs-Jahr gehört bzw. was man überhaupt eigentlich wollte.

Nun sieht man schon eher, worin das Problem besteht, auf gezielte Weise lineare Texte (Bücher) mittels einer Suchmaschine zu finden, die dafür konzipiert ist, komplexe Hypertexte zu durchforschen und darin zu navigieren.

Eine Suchmaschine ist eben kein Katalog - das wissen Bibliotheken am besten. Deshalb haben auch die wissenschaftlichen Bibliotheken Österreichs – außer der ÖNB – NICHT darauf verzichtet, neben der Suchmaschine Primo noch die Verbindung zu ihren linearen Online–Katalogen aufrecht zu erhalten und ihren LeserInnen anzubieten. Die zwei Welten – lineare Texte, lineare Suche und mehrdimensionaler Raum gefüllt und durchdrungen von virtuellen Datennetzen – sind nicht einfach zu vermischen.

Aus:
Zur Theorie der Bibliothekskataloge und Suchmaschinen:
(Bernhard Eversberg, UB Braunschweig)

Zettelkatalog: eine lineare, also eindimensionale Folge von Einträgen. Oft gibt es mehrere Katalogteile ("Alphabete") mit zeitlicher Schichtung und/oder eine Aufteilung in Formal- und Sachkataloge. Für jedes Dokument können mehrere Zettel an verschiedenen Stellen eingeordnet sein, einer davon ist die "Haupteintragung". Diese Stelle dient dazu, die Ausgaben eines Werkes und die Werke eines Verfassers zusammenzuführen. Diese Stelle dient aber auch dem zuverlässigen Auffinden: kennt man das Prinzip, kann man durch Nachsehen an einer einzigen Stelle herausfinden, ob das Gesuchte da ist oder nicht.

Die Regeln, nach denen in Österreichs, Deutschlands und schweizerischen wissenschaftlichen Bibliotheken nach wie vor katalogisiert wird, ist die RAK-WB, Format MAB2.

Online-Katalog: im Prinzip eine ungeordnete Datenmenge. Die Software kann daraus aber mit Hilfe vieler formaler und sachlicher Kriterien Teilmengen extrahieren und dann in einer bestimmten Ordnung auflisten. Diese Kriterien: Namen, Titel, Nummern, Schlagwörter usw., können bei einer Suche beliebig miteinander kombiniert werden. Sie sind somit so etwas wie die Achsen eines mehrdimensionalen Raumes, in dem man sich bei der Suche in allen Richtungen bewegen kann.

RAK arbeitet nur formal, nicht sachlich!

-> Die beiden Bereiche unterscheiden sich qualitativ in jeder Hinsicht so, wie sich das Kernobst Äpfel von Birnen unterscheidet. Suchergebnisse sind oft so inadäquat wie der Rat, sich auf der Suche nach einem bestimmten Apfel, einen Teil Birne abzuschneiden.

Gegenüberstellung Katalog – Suchmaschine
bzw. Hinweise darauf, was schief gehen kann, wenn eine Suchmaschine ein Katalog sein möchte:

Bestand
- konkreter Dokumentenbestand, physisch vorhanden –
--> weltweit verteilte Ressourcen, physisch real und virtuell

Auswahl
- genau definierte Ziele (RAK §101), wodurch es möglich ist, nach einem oder wenigen Versuchen so gut wie sicher zu sein, ob das Gesuchte da ist oder nicht, jedenfalls für bestimmte Arten von Fragestellungen, auch wenn die Schreibweisen der Wörter oder Namen in den Dokumenten unsicher sind –

--> Prinzipien für die Ziele einer Suchmaschine wären schwierig zu formulieren, jedenfalls in dem Sinne, klarzumachen, welche Art von Zugriffen Ergebnisse mit hoher Zuverlässigkeit oder Präzision erbringen würden. Kennt man zwei oder drei prägnante Wörter, die irgendwo im Text vorkommen müssen, so ist die AND-Suche recht zuverlässig.

Bestandmenge
- Der Bestand ist kleiner als es nach der Vorstellung der meisten Nutzer wünschenswert wäre, jedoch bemühen sich die Bibliotheken um eine qualitätvolle und ausgewogene Auswahl von Dokumenten mit längerfristiger Bedeutung. –

--> Die indexierte Menge ist u.U. viel größer, als ein Nutzer es sich vorstellt, aber wertvolle Ressourcen stehen undifferenziert inmitten Massen ephemeren, wissenschaftlich unbedeutenden Materials. Es wird aber versucht, mit formalen Kriterien eine Gewichtung (sog. "relevance ranking") durchzuführen.

Transparenz
- Grundsätzlich kann ein interessierter Nutzer alles über die Funktionsweise des Katalogs erfahren und somit auch das Zustandekommen eines Suchergebnisses durchschauen. Vor allem, wenn es um wissenschaftliche Information geht, ist es unabdingbar notwendig, Endnutzern eine Einschätzung der Zuverlässigkeit und Vollständigkeit von Ergebnissen zu ermöglichen.

(Die Bibliothek braucht nichts geheimzuhalten, denn sie hat vollständige Kontrolle über den Katalog, kein Nutzer kann seine Daten und Funktionen beeinflussen.) –

--> Suchmaschinenbetreiber können die Arbeitsweise ihrer Software nicht vollständig offenlegen, weil die sog. "Suchmaschinen-Optimierer" dieses Wissen dann ausnutzen, um durch geeignete Gestaltung von Texten und Metadaten ein hohes "Ranking" zu erzielen.

Das Zustandekommen von Ergebnissen, das Ranking, die Zuverlässigkeit und Vollständigkeit sind deshalb für den Endnutzer mindestens teilweise undurchschaubar.

Außerdem ist es wegen der enormen Datenmengen notwendig, in der Suchsoftware Kompromisse zwischen Präzision und Geschwindigkeit zu machen. So sind die Trefferzahlen i.d.R. nur Schätzungen.

Art der Daten
- bestehen aus normierten Kurzbeschreibungen (Titelaufnahmen), die nach festgelegten Regeln einheitlich angefertigt werden. Die meistverwendeten Regeln sind AACR und RAK. Für jedes Dokument gibt es einen strukturierten Datensatz mit genau definerten Feldern. Die Feldstruktur entspricht einem Datenformat. Die meistverwendeten Formate sind MARC und MAB. Die Feldinhalte entsprechen dem verwendeten Regelwerk.

Objekte (Dokumente) haben typischerweise einige formal definierte Teile (z.B. Haupttitelseite), von denen sich Metadaten in formaler Weise ableiten lassen. Dies ist wichtig für die Austauschbarkeit der Daten und z.B. virtuelle Kataloge.

Datenformat und Regelwerk sind zwei ganz verschiedene, sich jedoch ergänzende Gebilde. –

--> Es gibt keine normierten Beschreibungen der Dokumente, die Datenbank besteht eigentlich nur aus großen Indexdateien, die aus den Dokumenten direkt abgeleitet sind. Die Indexdateien werden als solche nicht gezeigt, denn sie sind nicht als schlichte alphabetische Listen organisiert. Einheitlichkeit ist nicht möglich, weil das Material in keiner Hinsicht standardisiert ist. Nur wenige Objekte haben Metadaten.

Datenbank
Die Volltexte selbst liegen i.d.R. auf Papier vor, d.h. sie stehen nicht für eine automatisierte Auswertung zur Verfügung!

Die Beschreibungen beruhen im Wesentlichen auf einer Titelseite oder einem Äquivalent und umfassen keine weiteren Teile des Inhalts.

Diese Struktur ist an den früheren Katalogkarten orientiert.

Automatisches Katalogisieren (Titelblätter scannen usw.) ist nicht möglich, die Beschreibungen müssen intellektuell-manuell angefertigt werden. –

--> In den Indexdateien ist meist das gesamte Wortmaterial der Volltexte (!) aufbereitet. So etwas wie Titelseiten, ja sogar Titel gibt es oft gar nicht. Deshalb wird per Software versucht, die jeweils entscheidenden Zeilen eines Dokuments für die Anzeige aufzubereiten, um den Kontext der gefundenen Wörter sichtbar zu machen.

Die Daten werden vollautomatisch aus den online vorliegenden Dokumenten gewonnen und für die Suche aufbereitet.

Abfrage
- Abfragen können nach mehreren verschiedenen Kriterien und auch Kombinationen davon erfolgen: Namen, Titelwörter, Titelanfänge, Schlagwörter u.a., oft gibt es auch einen "Basic Index", der alle diese Elemente in sich vereinigt und jedes Einzelwort zugänglich macht. (Keine Tiefenerschließung ). –

--> Abfragen werden meistens durch Volltextsuche im gesamten Bestand erledigt, wofür ein einzelnes Eingabefeld genügt. Es sind meist auch gewisse Differenzierungen der Abfrage möglich, doch z.B. nicht nach Namen / Stichwörtern / Titeln / Schlagwörtern / Jahreszahlen, weil es dazu keine Datenfelder gibt. Eine Tiefenerschließung ergibt sich wie von selbst, weil der gesamte Text indexiert ist. Für die "Relevanz"-Bewertung zählt i.d.R. aber mehr, was am Anfang des Dokuments steht. Volltext-Indexierung liefert andererseits viele irrelevante Nachweise.

Browsing
- statt einer direkten Abfrage kann auch über das Blättern in diversen Registern gesucht werden. Dies wird von Praktikern für unverzichtbar gehalten, erleichtert doch das Browsing in den Registern oft das Auffinden, wenn man die genaue Schreibweise nicht kennt, oder nicht an flektierte Formen des Suchworts denkt (Plural, Genitiv u.a.) Denn die Wörter sind nur in der Form auffindbar, wie sie tatsächlich im Titel stehen! –

--> Suchmaschinen haben keine Register zum Blättern. Dies wird zwar selten bemängelt, aber gerade wegen der völlig fehlenden Normierung der Datenelemente könnten solche Register gelegentlich sehr helfen. Die gewaltigen Datenmengen und die Art der Daten- und Indexorganisation (die Daten haben keine sehr differenzierte Feldstruktur!) erlaubt aber solche Register wohl nicht.

Ranking
- die Ordnung von Ergebnislisten erfolgt traditionell ganz formal nach dem Alphabet der Verfasser oder Titel, oder nach dem Erscheinungsjahr. Manche Systeme erlauben eine Auswahl verschiedener Ordnungen. –

--> Die Ordnung der Ergebnisse wird nach sehr unterschiedlichen Kriterien vorgenommen, die selten direkt nachvollziehbar sind. Wenn von "Relevanz" die Rede ist, dann ist zu bedenken: Relevanz kann grundsätzlich nicht von Maschinen klassifiziert werden - sie ist subjektiv. Eine Suchmaschine kann jedoch Kritierien heranziehen, für die es in Katalogdaten keine Parallele gibt, wie z.B. die Bewertungskriterien bei Google: hier wird u.a. ausgewertet, wieviele andere Web- Dokumente auf das zu indexierende verweisen.

Normierung
- es gibt Normierungen (engl. "authority control", "controlled vocabulary") für die wichtigsten Datenelemente (Namen, Einheitstitel, Schlagwörter). Daher kann man in manchen, wichtigen Fällen sicher sein, ein recht präzises Ergebnis zu erhalten, aber durchaus nicht in allen Fällen, die dem Nutzer wichtig sind, z.B. eben gerade nicht bei thematischer Suche. Denn nicht jedes Thema, das in einem Buch behandelt wird, kann bei der Schlagwortvergabe berücksichtigt werden. Doch für die wichtigen Fälle "Werke eines Verfassers" und "Ausgaben eines Werkes" ( collocation search ) leistet ein Katalog gute Dienste.

Das Konzept "Werk" dient dazu, unterschiedliche Versionen und Ausgaben, die inhaltlich aber identisch sind, zusammenzuführen. –

--> Es gibt keine Normierungen , denn Erfassung und Indexierung erfolgen vollautomatisch, und die Dokumente selbst sind nicht hinreichend standardisiert. Manuell / intellektuell wären die Mengen nicht zu bewältigen.

Der Mangel an Normierungen ermöglicht präzise Ergebnisse nur dann, wenn bestimmte Namen/Wörter mit Sicherheit in einer ganz bestimmten Schreibweise in den gesuchten Dokumenten vorkommen und man dies vorher weiß.

Ein collocation search ist deshalb nicht möglich. Das Konzept "Werk" gibt es nicht: unterschiedliche Dateiversionen desselben Inhalts können selten automatisch erkannt werden.

Eine Feststellung auf Nichtvorhandensein eines bestimmten Dokuments kann schwierig sein.

[Die einzelnen Vergleichs-Kategorien mit den nachfolgenden Inhalts-Texten wurden etwas gekürzt aus: Zur Theorie der Bibliothekskataloge und Suchmaschinen
von Bernhard Eversberg, UB Braunschweig übernommen]

Zusammenstellung: Eva Kumar