CeBit: Das digitale Wunschbuch

Von Jochen Stöckmann · 04.03.2008
Mit dem "Digitalen Wunschbuch" geht die Göttinger Bibliothek auch auf individuelle Leser ein. Nutzer können wertvolle Bücher eigener Wahl für alle Interessierten im Internet verfügbar machen. Mithilfe eines sogenannten ScanRoboters werden sie schnell und schonend eingescannt. Sogar das Umblättern besorgt der Computer.
Eine seltsame Kreuzung aus Aktenschrank und mobiler Teeküche steht da auf der CeBIT-Computermesse: Ein schmaler Container, in den Martin Liebetruth vom Göttinger Digitalisierungszentrum einen ledergebunden Folianten legt. Eines jener alten Bücher, die ein Kenner nur selten aufschlagen mag, weil bei jedem Aufklappen der Einbandrücken leidet.

Martin Liebetruth: " Der ScanRoboter hat zwei große Vorteile: Zum einen sind wir damit in der Lage, den Buchöffnungswinkel klein, niedrig zu halten, auf 60 Grad ungefähr. Zum anderen: diese etwas langweilige Tätigkeit des manuellen Umblätterns, das ist eine Sache, die die Maschine sehr gut leisten kann, durch Saugvorrichtungen und ähnliche Dinge, und gleichzeitig wird in sehr guter Qualität digitalisiert."

Digital, als gestochen scharfe Fotoreproduktion, hat die Göttinger Staatsbibliothek bereits mehr als fünf Millionen Seiten ins Internet gestellt. Zumeist im Rahmen wissenschaftlicher Forschungsprojekte, für Recherchen auf dem Gebiet der Mathematik, der Zoologie oder um die Arbeit von Literaturwissenschaftlern über frühe Reiseberichte oder Autobiografien im 18. Jahrhundert zu erleichtern. Aber auch der ganz gewöhnliche Leser kann neuerdings von diesem Service profitieren. Wer nach Titeln sucht, die nur schwer zu beschaffen oder im Antiquariat für teures Geld zu kaufen sind, der findet im Online-Katalog der Göttinger Bibliothek einen hilfreichen Button, wenn das Buch vor 1900 erschienen und die Urheberrechte damit erloschen sind.

Liebetruth: " Wir haben den Service DigiWunschbuch, auch unter www.digiwunschbuch.de im Internet zu erreichen, dort gibt es die Möglichkeit, dass man Bände, die aus dem Bestand der Niedersächsischen Staats- und Universitätsbibliothek stammen, digitalisieren lassen kann. Wir rechnen da mit einem Grundpreis von 25 Cent pro Seite, und wir sind vielleicht mit dem Roboter dreimal so schnell, das heißt, wir werden deutlich unter 10 Cent kommen pro Seite. "

Aber den ScanRoboter, der immerhin um die 100.000 Euro kostet, haben die Bibliothekare nicht nur angeschafft, um Hobbylesern oder Amateurforschern die Pflege ausgefallener Passionen zu erleichtern.

Liebetruth: " Wunschbuch ist ein Zusatzservice, den wir anbieten. Üblicherweise arbeiten wir in größeren Mengen, deswegen ist ja auch das Thema "Massendigitalisierung". Da geht es darum, dass wir für die Deutsche Forschungsgemeinschaft sachlich zusammenhängende Mengen von Bänden digitalisieren, wie zum Beispiel – was als nächstes bei uns ansteht – 132 Regalmeter mathematische Literatur. "

Da unterscheidet sich das Göttinger Projekt von der Google-Buchsuche, für die ohne thematische Schwerpunktsetzung Buchbestände weltweit und zumeist ohne einsichtige Kriterien gescannt werden: Aus den beteiligten Bibliotheken – darunter große Institutionen wie etwa die Harvard University – werden die Bücher abgeholt und sind dann nach einigen Tagen als digitale Reproduktion im Internet zu finden – oft in bemerkenswert schlechter Qualität.

Liebetruth: " Google sagt dazu gar nichts, die schweigen stille. Die beteiligten Bibliotheken dürfen dazu auch nichts sagen, das ist ein Betriebsgeheimnis dieses Unternehmens. Da sind wir ein bisschen anders, wir geben eben auch Tipps und Empfehlungen. Wir sind ja eine Institution, die hauptsächlich für Projekte der Deutschen Forschungsgemeinschaft digitalisiert, und da ist es eben unsere Aufgabe, unser Know-how, unser Wissen auch weiterzugeben. "

Wichtiger noch als die Hardware, als der "Grazer Büchertisch" oder neuerdings eben der ScanRoboter bleibt die Software, die automatische Texterkennung. Nur mit Hilfe dieser sogenannten OCR-Programme lassen sich Reproduktionen aus dem Scanner, bis dahin nichts weiter als Fotokopien, in digitalen Volltext umwandeln. Erst danach ist ein Buch weltweit verfügbar, lässt sich der Text in Bruchteilen von Sekunden nach Stichworten durchsuchen. Da weiß sich Martin Liebetruth einig mit der kommerziellen Konkurrenz:

" Die Digitalisierung ist nur Mittel zum Zweck. Was Google will, ist, den Volltext, der in diesen Bänden steht. Also das hochwertige Wissen, das menschliche Wissen, das sich über Jahrhunderte angesammelt hat, zu indizieren – und das in seinen Suchindex zu bekommen. Denn was in einem Buch schon mal gedruckt ist, hat eine höhere Wertigkeit als alles, was ich irgendwo auf einer Webseite finden kann, da es Verlage durchlaufen hat, da es rezensiert worden ist et cetera. "

Dieser Vorteil des gedruckten Buches im neuen Medium Internet entfällt allerdings, wenn Titel falsch aufgenommen, Schlagwort nicht korrekt indiziert werden. Insbesondere bei deutschen Texten kann Google da manchmal nicht recht mithalten:

Liebetruth: " Das ist ein ganz großes Problem: Frakturschrift im deutschen Sprachraum. Sehr schönes Beispiel ist das Binnen-S, ich habe bei Google Thomas Mann gesucht und habe dann die "Gefammelten Werke" gefunden. Wir sind dabei, in einem großen europäischen Projekt, das sich "Impact" nennt, unter anderem diesen Bereich der Volltexterfassung, der maschinellen Volltexterkennung anzugehen. Dass eben auch ein in Fraktur gesetzter Text maschinenlesbar wird. "

Die ungewohnten Buchstaben, die sogenannte "gebrochene Schrift" bringt Computer an die Grenze ihrer Lese- beziehungsweise Leistungsfähigkeit. Denn eine Maschine erkennt Texte erst im Zusammenhang, muss mit einem Sprachlexikon oder Thesaurus gefüttert werden, um möglichst hohe Trefferquoten zu erzielen:

" Wir haben natürlich gute Wörterbücher für unsere jetzige Sprache, aber wir haben noch keine kompletten Wörterbücher für das 16., 17., 18. und 19. Jahrhundert. Und dort wurde komplett anders geschrieben, es gab parallele Schreibweisen mit "th" und ähnliche Dinge, die heute ganz anders geschrieben werden – und die auch zur damaligen Zeit keine einheitliche Schreibweise besaßen. "

Um diesen Quantensprung im Umgang mit einer Fülle älterer, oft auch vom Zerfall bedrohter Bücher zu bewältigen, kennen Martin Liebtruth und seine Kollegen vom Göttinger Digitalisierungszentrum nur eine Lösung: öffentliche Arbeit am Text, den uneingeschränkten Zugang für alle Interessenten. Also das genaue Gegenteil von Googles Geheimniskrämerei.

Martin Liebetruth: " Wir werden nicht mehr selber in der Lage sein, das, was eine Maschine, was ein Programm erkannt hat als Volltext, zu kontrollieren. Sondern wir werden den Volltext als sogenannten "schmutzigen Volltext" im Internet präsentieren. Wir werden auch sagen, dass es maschinell erzeugter Volltext ist, über den kein menschliches Auge drübergesehen hat. Und wir werden dann die Community, die Wissenschaftler einladen: Guckt euch den Text an, wenn es Fehler gibt, meldet euch bei uns, die Korrekturen bringen wir ins Netz. "
Ein Mann geht auf der Computermesse CeBIT in Hannover an einem Plakat mit der Aufschrift "CeBIT green IT" vorbei.
CeBIT 2008© AP