Informationsethik

12 Dezember 2011

Katalog und / ?oder? Suchmaschine

bzw. Hinweise darauf, was schief gehen kann, wenn eine Suchmaschine ein Katalog sein möchte:

Eine Bibliothek definiert sich über ihren Katalog

Ein Haufen von Büchern ist keine Bibliothek – die Bücher oder Dokumente müssen auch zugänglich sein und zugänglich werden sie, indem sie nach einem oder mehreren Ordnungsprinzipien verzeichnet werden und diese Aufzeichnung mit dem Standort des Dokuments verknüpft wird.

"Ein Bibliothekskatalog ist ein Verzeichnis von Publikationen (Medien) oder Sammlungen in einer Bibliothek. Traditionell sind vor allem Bücher verzeichnet. Zu unterscheiden sind der nach Verfassern und Elementen des Titels geordnete alphabetische Katalog, der systematisch oder nach Schlagwörtern geordnete Sachkatalog und der die Buchaufstellung verzeichnende Standortkatalog." (Wikipedia)

Ein Katalog ist also ein Verzeichnis.

Katalog (altgr. katálogos ‚Verzeichnis, Liste‘) bezeichnet
• Katalog (Literatur), literarische Form der Faktendarstellung der Antike
• Verzeichnis, allgemein eine systematische Zusammenstellung
• Bibliothekskatalog, die Bestandsliste eines Schrifttumsarchivs
• ... u.a.m.

(Wikipedia)

Es handelt sich um geordnete Listen, Nachschlageverzeichnisse, einen Überblick über den Bestand, ein nach einigen Kriterien - Autor, Titel, Impressum, Erscheinungsjahr, Schlagwort – geordnetes und durchsuchbares Verzeichnis, um eine ganz bestimmte definierte Einheit an ihrem Standort zu finden. Diese Einheit ist real, es handelt sich nicht um virtuelle im Raum kristallisierte Bilder als Zeichen, die gedeutet werden können, für etwas anderes. Es handelt sich (zumeist) um ein Buch.

Lesende Menschen der letzten Jahrhunderte sind in der Rezeption von linearen Texten geschult worden, das bedeutet, das Lesen ist – auf einer Zeitachse (man denke an die Romane von Dostojewski ;-)) - gleichzeitig ein Auslesen, ein Auswählen nach bestimmten Gesichtspunkten, um das Ganze zu erfassen.

(Wikipedia): Linearität von Texten wie z. B. Büchern liegt vor, wenn diese in einer bestimmten, linearen Reihenfolge geschrieben und gelesen werden. Ausprägungen von Linearität bei Texten sind beispielsweise:

• von Seite zu Seite oder von Blatt zu Blatt,
• von vorne nach hinten oder von hinten nach vorne,
• von Zeile zu Zeile oder von Spalte zu Spalte,
• von links nach rechts oder von rechts nach links,
• von oben nach unten oder von unten nach oben.

Dieser Linearität des Textes folgt die Bewegungsrichtung der Augen des Autors bzw. Lesers.

"Das World Wide Web oder WWW aus dem Englischen für: „Weltweites Netz“) ist ein über das Internet abrufbarer Hypertext-Dienst, bestehend aus elektronischen Dokumenten, die durch Hyperlinks miteinander verknüpft sind.

Zur Nutzung des World Wide Web wird ein Webbrowser benötigt, welcher die Daten vom Webserver holt und zum Beispiel auf dem Bildschirm anzeigt. Der Benutzer kann den Hyperlinks im Dokument folgen, die auf andere Dokumente verweisen, gleichgültig ob sie auf demselben Webserver oder einem anderen gespeichert sind. Dadurch ergibt sich ein weltweites Netz aus Webseiten. Das Verfolgen der Hyperlinks wird oft als Internetsurfen bezeichnet." (Wikipedia)

Mittels des Webbrowsers kann im weltweiten Netz der Webseiten "gesurft" werden – d.h. praktisch: Suchbegriffe werden in eine Suchmaschine eingegeben oder Adressen in die Adressenleiste einegegeben, die zu bestimmten Web-Seiten, nämlich Hypertexten, führen.

(Wikipedia): "Ein Hypertext ist ein Text, der mit einer netzartigen Struktur von Objekten Informationen durch Hyperlinks zwischen Hypertext-Knoten verknüpft. Hypertext wird in Auszeichnungssprachen geschrieben, die neben Format-Anweisungen auch Befehle für Hyperlinks beinhalten, die bekannteste ist die Hypertext Markup Language (HTML) für Internetdokumente.

Ein Problem beim Arbeiten mit Hypertext ist das gezielte Auffinden von Informationen. Während literate Menschen über Jahrhunderte in der Rezeption von linearen Texten geschult worden sind, begann man erst mit der zunehmenden Verbreitung des World Wide Web seit Mitte der 1990er Jahre den Umgang mit komplexen Hypertexten zu erlernen. Hilfsmittel wie Suchmaschinen und Suchfunktionen auf den Webseiten unterstützen den Nutzer.

Ein weiteres Problem ist das Navigieren in Hypertexten, da vor allem in den Anfangsjahren häufig eine vom Autor vorgegebene Lesestruktur fehlte. Heute verfügen Hypertexte in der Regel über eine ausgefeilte Navigation. Als Folge eines Übermaßes an Querverweisen kann ein sogenannter Information Overload, die Überflutung mit ungeordneten Informationen und eine Desorientiertheit im weit verzweigten Netz von Texten entstehen. Die Lesegewohnheiten spielen hierbei eine wichtige Rolle. So haben online-affine Nutzer weniger Schwierigkeiten damit, das Lesen eines Textes zu unterbrechen, um einem Querverweis zu folgen."

– diese Fähigkeit nützt allerdings nicht viel, wenn man auf der gezielten Suche nach einem bestimmten Dokument bis zur Bestellung des (endlich) gefundenen 5mal Verweisen folgen MUSS und am Ende der Querverweisreise nicht mehr weiß, welcher Band zu welchem Erscheinungs-Jahr gehört bzw. was man überhaupt eigentlich wollte.

Nun sieht man schon eher, worin das Problem besteht, auf gezielte Weise lineare Texte (Bücher) mittels einer Suchmaschine zu finden, die dafür konzipiert ist, komplexe Hypertexte zu durchforschen und darin zu navigieren.

Eine Suchmaschine ist eben kein Katalog - das wissen Bibliotheken am besten. Deshalb haben auch die wissenschaftlichen Bibliotheken Österreichs – außer der ÖNB – NICHT darauf verzichtet, neben der Suchmaschine Primo noch die Verbindung zu ihren linearen Online–Katalogen aufrecht zu erhalten und ihren LeserInnen anzubieten. Die zwei Welten – lineare Texte, lineare Suche und mehrdimensionaler Raum gefüllt und durchdrungen von virtuellen Datennetzen – sind nicht einfach zu vermischen.

Aus:
Zur Theorie der Bibliothekskataloge und Suchmaschinen:
(Bernhard Eversberg, UB Braunschweig)

Zettelkatalog: eine lineare, also eindimensionale Folge von Einträgen. Oft gibt es mehrere Katalogteile ("Alphabete") mit zeitlicher Schichtung und/oder eine Aufteilung in Formal- und Sachkataloge. Für jedes Dokument können mehrere Zettel an verschiedenen Stellen eingeordnet sein, einer davon ist die "Haupteintragung". Diese Stelle dient dazu, die Ausgaben eines Werkes und die Werke eines Verfassers zusammenzuführen. Diese Stelle dient aber auch dem zuverlässigen Auffinden: kennt man das Prinzip, kann man durch Nachsehen an einer einzigen Stelle herausfinden, ob das Gesuchte da ist oder nicht.

Die Regeln, nach denen in Österreichs, Deutschlands und schweizerischen wissenschaftlichen Bibliotheken nach wie vor katalogisiert wird, ist die RAK-WB, Format MAB2.

Online-Katalog: im Prinzip eine ungeordnete Datenmenge. Die Software kann daraus aber mit Hilfe vieler formaler und sachlicher Kriterien Teilmengen extrahieren und dann in einer bestimmten Ordnung auflisten. Diese Kriterien: Namen, Titel, Nummern, Schlagwörter usw., können bei einer Suche beliebig miteinander kombiniert werden. Sie sind somit so etwas wie die Achsen eines mehrdimensionalen Raumes, in dem man sich bei der Suche in allen Richtungen bewegen kann.

RAK arbeitet nur formal, nicht sachlich!

-> Die beiden Bereiche unterscheiden sich qualitativ in jeder Hinsicht so, wie sich das Kernobst Äpfel von Birnen unterscheidet. Suchergebnisse sind oft so inadäquat wie der Rat, sich auf der Suche nach einem bestimmten Apfel, einen Teil Birne abzuschneiden.

Gegenüberstellung Katalog – Suchmaschine
bzw. Hinweise darauf, was schief gehen kann, wenn eine Suchmaschine ein Katalog sein möchte:

Bestand
- konkreter Dokumentenbestand, physisch vorhanden –
--> weltweit verteilte Ressourcen, physisch real und virtuell

Auswahl
- genau definierte Ziele (RAK §101), wodurch es möglich ist, nach einem oder wenigen Versuchen so gut wie sicher zu sein, ob das Gesuchte da ist oder nicht, jedenfalls für bestimmte Arten von Fragestellungen, auch wenn die Schreibweisen der Wörter oder Namen in den Dokumenten unsicher sind –

--> Prinzipien für die Ziele einer Suchmaschine wären schwierig zu formulieren, jedenfalls in dem Sinne, klarzumachen, welche Art von Zugriffen Ergebnisse mit hoher Zuverlässigkeit oder Präzision erbringen würden. Kennt man zwei oder drei prägnante Wörter, die irgendwo im Text vorkommen müssen, so ist die AND-Suche recht zuverlässig.

Bestandmenge
- Der Bestand ist kleiner als es nach der Vorstellung der meisten Nutzer wünschenswert wäre, jedoch bemühen sich die Bibliotheken um eine qualitätvolle und ausgewogene Auswahl von Dokumenten mit längerfristiger Bedeutung. –

--> Die indexierte Menge ist u.U. viel größer, als ein Nutzer es sich vorstellt, aber wertvolle Ressourcen stehen undifferenziert inmitten Massen ephemeren, wissenschaftlich unbedeutenden Materials. Es wird aber versucht, mit formalen Kriterien eine Gewichtung (sog. "relevance ranking") durchzuführen.

Transparenz
- Grundsätzlich kann ein interessierter Nutzer alles über die Funktionsweise des Katalogs erfahren und somit auch das Zustandekommen eines Suchergebnisses durchschauen. Vor allem, wenn es um wissenschaftliche Information geht, ist es unabdingbar notwendig, Endnutzern eine Einschätzung der Zuverlässigkeit und Vollständigkeit von Ergebnissen zu ermöglichen.

(Die Bibliothek braucht nichts geheimzuhalten, denn sie hat vollständige Kontrolle über den Katalog, kein Nutzer kann seine Daten und Funktionen beeinflussen.) –

--> Suchmaschinenbetreiber können die Arbeitsweise ihrer Software nicht vollständig offenlegen, weil die sog. "Suchmaschinen-Optimierer" dieses Wissen dann ausnutzen, um durch geeignete Gestaltung von Texten und Metadaten ein hohes "Ranking" zu erzielen.

Das Zustandekommen von Ergebnissen, das Ranking, die Zuverlässigkeit und Vollständigkeit sind deshalb für den Endnutzer mindestens teilweise undurchschaubar.

Außerdem ist es wegen der enormen Datenmengen notwendig, in der Suchsoftware Kompromisse zwischen Präzision und Geschwindigkeit zu machen. So sind die Trefferzahlen i.d.R. nur Schätzungen.

Art der Daten
- bestehen aus normierten Kurzbeschreibungen (Titelaufnahmen), die nach festgelegten Regeln einheitlich angefertigt werden. Die meistverwendeten Regeln sind AACR und RAK. Für jedes Dokument gibt es einen strukturierten Datensatz mit genau definerten Feldern. Die Feldstruktur entspricht einem Datenformat. Die meistverwendeten Formate sind MARC und MAB. Die Feldinhalte entsprechen dem verwendeten Regelwerk.

Objekte (Dokumente) haben typischerweise einige formal definierte Teile (z.B. Haupttitelseite), von denen sich Metadaten in formaler Weise ableiten lassen. Dies ist wichtig für die Austauschbarkeit der Daten und z.B. virtuelle Kataloge.

Datenformat und Regelwerk sind zwei ganz verschiedene, sich jedoch ergänzende Gebilde. –

--> Es gibt keine normierten Beschreibungen der Dokumente, die Datenbank besteht eigentlich nur aus großen Indexdateien, die aus den Dokumenten direkt abgeleitet sind. Die Indexdateien werden als solche nicht gezeigt, denn sie sind nicht als schlichte alphabetische Listen organisiert. Einheitlichkeit ist nicht möglich, weil das Material in keiner Hinsicht standardisiert ist. Nur wenige Objekte haben Metadaten.

Datenbank
Die Volltexte selbst liegen i.d.R. auf Papier vor, d.h. sie stehen nicht für eine automatisierte Auswertung zur Verfügung!

Die Beschreibungen beruhen im Wesentlichen auf einer Titelseite oder einem Äquivalent und umfassen keine weiteren Teile des Inhalts.

Diese Struktur ist an den früheren Katalogkarten orientiert.

Automatisches Katalogisieren (Titelblätter scannen usw.) ist nicht möglich, die Beschreibungen müssen intellektuell-manuell angefertigt werden. –

--> In den Indexdateien ist meist das gesamte Wortmaterial der Volltexte (!) aufbereitet. So etwas wie Titelseiten, ja sogar Titel gibt es oft gar nicht. Deshalb wird per Software versucht, die jeweils entscheidenden Zeilen eines Dokuments für die Anzeige aufzubereiten, um den Kontext der gefundenen Wörter sichtbar zu machen.

Die Daten werden vollautomatisch aus den online vorliegenden Dokumenten gewonnen und für die Suche aufbereitet.

Abfrage
- Abfragen können nach mehreren verschiedenen Kriterien und auch Kombinationen davon erfolgen: Namen, Titelwörter, Titelanfänge, Schlagwörter u.a., oft gibt es auch einen "Basic Index", der alle diese Elemente in sich vereinigt und jedes Einzelwort zugänglich macht. (Keine Tiefenerschließung ). –

--> Abfragen werden meistens durch Volltextsuche im gesamten Bestand erledigt, wofür ein einzelnes Eingabefeld genügt. Es sind meist auch gewisse Differenzierungen der Abfrage möglich, doch z.B. nicht nach Namen / Stichwörtern / Titeln / Schlagwörtern / Jahreszahlen, weil es dazu keine Datenfelder gibt. Eine Tiefenerschließung ergibt sich wie von selbst, weil der gesamte Text indexiert ist. Für die "Relevanz"-Bewertung zählt i.d.R. aber mehr, was am Anfang des Dokuments steht. Volltext-Indexierung liefert andererseits viele irrelevante Nachweise.

Browsing
- statt einer direkten Abfrage kann auch über das Blättern in diversen Registern gesucht werden. Dies wird von Praktikern für unverzichtbar gehalten, erleichtert doch das Browsing in den Registern oft das Auffinden, wenn man die genaue Schreibweise nicht kennt, oder nicht an flektierte Formen des Suchworts denkt (Plural, Genitiv u.a.) Denn die Wörter sind nur in der Form auffindbar, wie sie tatsächlich im Titel stehen! –

--> Suchmaschinen haben keine Register zum Blättern. Dies wird zwar selten bemängelt, aber gerade wegen der völlig fehlenden Normierung der Datenelemente könnten solche Register gelegentlich sehr helfen. Die gewaltigen Datenmengen und die Art der Daten- und Indexorganisation (die Daten haben keine sehr differenzierte Feldstruktur!) erlaubt aber solche Register wohl nicht.

Ranking
- die Ordnung von Ergebnislisten erfolgt traditionell ganz formal nach dem Alphabet der Verfasser oder Titel, oder nach dem Erscheinungsjahr. Manche Systeme erlauben eine Auswahl verschiedener Ordnungen. –

--> Die Ordnung der Ergebnisse wird nach sehr unterschiedlichen Kriterien vorgenommen, die selten direkt nachvollziehbar sind. Wenn von "Relevanz" die Rede ist, dann ist zu bedenken: Relevanz kann grundsätzlich nicht von Maschinen klassifiziert werden - sie ist subjektiv. Eine Suchmaschine kann jedoch Kritierien heranziehen, für die es in Katalogdaten keine Parallele gibt, wie z.B. die Bewertungskriterien bei Google: hier wird u.a. ausgewertet, wieviele andere Web- Dokumente auf das zu indexierende verweisen.

Normierung
- es gibt Normierungen (engl. "authority control", "controlled vocabulary") für die wichtigsten Datenelemente (Namen, Einheitstitel, Schlagwörter). Daher kann man in manchen, wichtigen Fällen sicher sein, ein recht präzises Ergebnis zu erhalten, aber durchaus nicht in allen Fällen, die dem Nutzer wichtig sind, z.B. eben gerade nicht bei thematischer Suche. Denn nicht jedes Thema, das in einem Buch behandelt wird, kann bei der Schlagwortvergabe berücksichtigt werden. Doch für die wichtigen Fälle "Werke eines Verfassers" und "Ausgaben eines Werkes" ( collocation search ) leistet ein Katalog gute Dienste.

Das Konzept "Werk" dient dazu, unterschiedliche Versionen und Ausgaben, die inhaltlich aber identisch sind, zusammenzuführen. –

--> Es gibt keine Normierungen , denn Erfassung und Indexierung erfolgen vollautomatisch, und die Dokumente selbst sind nicht hinreichend standardisiert. Manuell / intellektuell wären die Mengen nicht zu bewältigen.

Der Mangel an Normierungen ermöglicht präzise Ergebnisse nur dann, wenn bestimmte Namen/Wörter mit Sicherheit in einer ganz bestimmten Schreibweise in den gesuchten Dokumenten vorkommen und man dies vorher weiß.

Ein collocation search ist deshalb nicht möglich. Das Konzept "Werk" gibt es nicht: unterschiedliche Dateiversionen desselben Inhalts können selten automatisch erkannt werden.

Eine Feststellung auf Nichtvorhandensein eines bestimmten Dokuments kann schwierig sein.

[Die einzelnen Vergleichs-Kategorien mit den nachfolgenden Inhalts-Texten wurden etwas gekürzt aus: Zur Theorie der Bibliothekskataloge und Suchmaschinen
von Bernhard Eversberg, UB Braunschweig übernommen]

Zusammenstellung: Eva Kumar

03 Juni 2011

Veranstaltung eBooks on Demand an der UBW

NIG, Freitag, 27. Mai 2011

Tagesordnung:
     E-Books on Demand
     Book-Importer

     juristische Fragen

Seyavash Amini vom Max-Planck-Institut für Immaterialgüter- und Wettbewerbsrecht, München
informiert über juristische Fragen
Forum neue Medien Austria - eine Arbeitsgruppe arbeitet an einer Erweiterung des UrhG

EOD: eine Kooperation von 27 Bibliotheken europaweit
gemeinsame Suchmaschine für eBooks:
(Dokumente auch in Google zu finden)

Mag. Pamela Stückler
E-Books on Demand an der UB Wien

Die E-Books werden im Rahmen des EOD Services der Universitätsbibliothek Wien erzeugt. Urheberrechtsfreie Bestände der Bibliothek werden im Zuge dieses Services digitalisiert und – wenn möglich – mit Bilderkennungssoftware überarbeitet. Am Ende steht ein PDF, das nach einer Sperrfrist über Phaidra weltweit zur Verfügung steht.

Dr. Susanne Blumesberger
Der Book-Importer – ein Tool mit vielen Möglichkeiten

Der Phaidra-Book-Importer ermöglicht die eigene Erstellung eines Buches, eines Heftes, einer Broschüre, einer Zeitschrift usw. Sie können somit selbst ein Buch virtuell „binden“ und „herausgeben“, d. h. mit permanenter Signatur im Internet publizieren. Mittels Phaidra-Book-Viewer können anschließend die publizierten Werke durchgeblättert, durchsucht oder ausgedruckt werden.

Dipl.-Jur. Seyavash Amini
Max-Planck-Institut für Immaterialgüter- und Wettbewerbsrecht
Juristische Fragen

Beim Einsatz von digitalen Objekten in der universitären Lehre ergeben sich manchmal rechtliche Fragen, die das Urheberrecht oder das Verwertungsrecht betreffen. Der Jurist Dipl.-Jur. Seyavash Amini leitete diesen Workshop-Teil leiten und stand für Fragen zur Verfügung

eBooks

-> Bestellung – 20% sind öffentliche Aufträge aus dem Ausland und Inland

-> Formular: ein Kostenvoranschlag wird erstellt

-> Katalogisierung des Werkes

> Scannen, Share (mit UB Innsbruck)

-> Weiterbearbeitung

-> Auslieferung (als Download, CDR, per Versand, mit Mail oder Abholung...)

-> Phaidra Import

-> Mapping von bibliographischen Metadaten

-> Permalink im Katalog

-> Nachbearbeitung

Phaidra arbeitet in Kooperation mit 27 Bibliotheken in Europa, gemeinsame Suchmaschine:
http://search.books2ebooks.eu/
in Google zu finden

Recht: freie Publikationen
Gesperrte: nur mit Genehmigung des Verlags
Orphan Works – EU Projekt: ein eigenes Repositorium soll dafür gebaut werden.
(EBLIDA: die Europäische Union hat letzte Woche einen Vorschlag für eine "Richtlinie über bestimmte zulässige Formen der Nutzung verwaister Werke" veröffentlicht:

Book Importer – Tool
Verwendung für die Erstellung eines virtuellen Buches: Bibliografien, Konferenz-, Projekt-, Ausstellungs-, usw. –Berichte, für vergriffene Zeitungen u.a. Werke

Seyavash Amini - Max-Planck-Institut
Urheberrechtliche Aspekte

Zitat John Perry Barlow – Unabhängigkeitserklärung des Cyberspace 1996
..... Der Cyberspace besteht aus Beziehungen, Transaktionen und dem Denken selbst, positioniert wie eine stehende Welle im Netz der Kommunikation. Unsere Welt ist überall und nirgends, und sie ist nicht dort, wo Körper leben.
Wir erschaffen eine Welt, die alle betreten können ohne Bevorzugung oder Vorurteil bezüglich Rasse, Wohlstand, militärischer Macht und Herkunft.

Wir erschaffen eine Welt, in der jeder Einzelnen an jedem Ort seine oder ihre Überzeugungen ausdrücken darf, wie individuell sie auch sind, ohne Angst davor, im Schweigen der Konformität aufgehen zu müssen.
Eure Rechtsvorstellungen von Eigentum, Redefreiheit, Persönlichkeit, Freizügigkeit und Kontext treffen auf uns nicht zu. Sie alle basieren auf der Gegenständlichkeit der materiellen Welt. Es gibt im Cyberspace keine Materie. .....
Unabhängigkeitserklärung des Cyberspace - John Perry Barlow

Von der Vision vor 15 Jahren zur heutigen Realität: eLearning hat mit DSG - Datenschutzgesetz, Wettbewerbsrecht, Patentrecht, Urheberrecht, Marken- und Titelschutz, Studienrecht usw. zu tun

Forum Neue Medien Austria arbeitet an einer Erweiterung und Adaption des Urheber-Gesetzes!

Uni Wien ist Provider – bei Hochschulschriften: Universität ist aber nicht der Urheber, kann aber Verwertungsrechte übertragen bekommen (vertraglich)

Verwertungsrechte: UrhG § 14, 15, 18a, 41a, 42
Fall Harper Collins: der neuerliche Erwerb der Lizenz für Lehrbücher, die als eBooks an Bibliotheken verkauft worden waren wurde erforderlich, sobald das eBook 27-mal heruntergeladen (gelesen) wurde. Harper-Collins ging davon aus, dass ein 27-maliges Herunterladen gleichbedeutend wäre mit 27-maliger Ausleihe, was in der Vision des Verlages den Verschleiß des Buches mit nachfolgendem Neukauf bedeutet.

Das Lesen war bisher keine urheberrechtlich relevante Handlung. Bei eBooks bedeutet aber lesen vervielfältigen, deshalb kommt hier das Urheberrecht zum Tragen.
UrhG: Es besteht Vervielfältigungsfreiheit für eigene Werke und im Interesse der eigenen Forschungen.
(Damit wurde auch gegen Harper-Collins argumentiert.