Das 700-Millionen-Teile-Puzzle

Von Peter Kaiser · 05.12.2011
Nach dem Fall der Mauer vernichtete die Stasi Millionen von Dokumenten. Die Bestandteile, rund 700 Millionen Schnipsel, lagern seit 21 Jahren in einer Halle in Leipzig. Wissenschaftler aus Berlin haben nun einen "E-Puzzler" entwickelt, der die Teile wieder zusammensetzen soll.
"Wenn wir als Mensch ein größeres Puzzle abarbeiten, dann suchen wir uns auch in der Regel erst mal alle blauen Schnipsel, den Himmel, die grüne Wiese."

(Scanner-Geräusche)

"Wir suchen uns zu Recht die Eckschnipsel, die Kanten, wo wir klare Bezüge haben. Und diese Sache macht das Computerprogramm genauso."

(Erneut Scanner-Geräusche, dann Papierrascheln)

Langsam fährt der breite Doppelscanner die auf dem Glastisch verstreut liegenden gelbgrauen Papierschnipsel ab, Ober- und Unterseite gleichzeitig. Erfasst werden wichtige Informationen wie Größe der Schnipsel, Farbe, Vergilbungsgrad, Texturierung, Hand- oder Maschinenschrift, und natürlich die Vermerke auf dem Papier.

"Wir haben ein Computerprogramm entwickelt, dass zunächst mal sortiert, welche Schnipsel haben die gleichen Merkmale. Das heißt, es wird erst mal elektronisch zusammengelegt, Häufchen gemacht mit den blauen Schnipseln vom Himmel, mit den grünen von der Wiese. Und nur wo die ganzen Merkmale so vergleichbar sind, wird der rechenintensivste Ablauf gemacht."

Bertram Nickolay vom Berliner Fraunhofer Institut für Produktionsanlagen und Sicherheitstechnik, IPK, hat den "E-Puzzler" mit seiner Arbeitsgruppe entwickelt. Das System, bestehend aus Scanner, Computer und Monitoren, geht jetzt in die Pilotphase. Danach steht ein gewaltiger Arbeitsberg vor den Wissenschaftlern: 16.000 Säcke, voll mit Schnipseln aus 1989 und 1990 eiligst zerrissenen Stasiunterlagen sind abzuscannen.

"Wir haben das dann etwa zu tun mit 700 Millionen Schnipseln, das ist unsere grobe Abschätzung. Das heißt, unser Projekt berührt nach jeder Seite eigentlich die Grenzen der Machbarkeit."

Die Grenzen der Machbarkeit erkannten die Mitarbeiter des BstU, des Bundesbeauftragten für die Unterlagen der Staatssicherheit der ehemaligen DDR, 1990 in Zirndorf bei Stuttgart schnell. Als sie damals anfingen, die Schnipsel per Hand zusammenzusetzen, und dabei nur etwa zehn Seiten pro Tag zusammenkamen, rechneten sie hoch, dass die Arbeiten noch bis ins Jahr 2500 andauern würden. Der "Epuzzler" wird erheblich schneller sein, weil er mit neuer Technologie arbeitet.

"Wir mussten neuartige Verfahren entwickeln, die Farben einer Seite Papier erkennen, Lernfähig berücksichtigen, dass da denn eine Alterung vorgelegen hat. Und eine zweite Thematik ist das eigentliche Rekonstruieren. Die Seiten wurden ja von den Stasileuten einfach so quer zerrissen. Dieses Papier ist über viele Jahrzehnte gealtert, fängt an porös zu werden, es lösen sich Anteile von diesem Papier. Das heißt, da würde man nie etwas zusammengesetzt bekommen, weil die Kanten ja nicht mehr so vorhanden sind. Wir mussten ein Verfahren entwickeln, was wir bezeichnen als ein Verfahren des Zusammenmatchens von Fragmenten."

Das "Fragmentmatchen" ist ein mathematisch höchst komplexer und disziplinenübergreifender Vorgang.

"Viele unserer Verfahren beruhen ja auf der digitalen Bildverarbeitung und der Mustererkennung. Das heißt, das basiert auf Verfahren der Statistik und der Wahrscheinlichkeitsrechnung. Es kommen Verfahren rein, die lernenden Charakter haben. Da bedienen wir uns natürlich der Neuroinformatik. Und für diese Thematik, die Bewertung, wie eine Seite vergilbt ist, da fließen rein Verfahren der 'mathematischen Morphologie'. Also sehr unterschiedliche mathematische Verfahren."

Grundsätzlich gliedert sich der virtuelle "E-Puzzler" in drei Aufgabenbereiche auf: Merkmalextraktion, Suchraumreduktion und Matcher. Denn keine zwei Schnipsel gleichen sich beim 700-Millionen-Puzzle. Konturen, Farben, Schriften und Linierung. Das Computergehirn des Projektes im Berliner Fraunhofer Institut ist zwei Meter hoch, drei Meter breit, und arbeitet im Terabyte Bereich. Und dennoch brauchen Soft- und Hardware schätzungsweise noch 10 bis 15 Jahre für das gewaltigste Puzzle der Welt.

"Man wird für die Abarbeitung der 16.000 Säcke einen richtigen Fabrikbetrieb brauchen. Ich brauche ja regelrechte Scan-Straßen."

Joachim Häusler, Leiter der Projektgruppe Virtuelle Rekonstruktion beim BstU betont, dass vor dem Einsatz des "E-Puzzlers" BstU-Mitarbeiter der Maschine erst noch zuarbeiten müssen.

"Zunächst wird gespreizt, welche Schnipsel per Hand zusammengesetzt werden, und welche Schnipsel in das Verfahren der virtuellen Rekonstruktion kommen. Per Hand zusammengesetzt werden Seiten, die einmal, maximal zweimal zerrissen sind. Also halbe oder viertel Seiten. Die sind per Hand schneller zusammenzusetzen. Und wir haben das Original erhalten, und nicht nur ein virtuelles Abbild. Alles, was in die virtuelle Rekonstruktion hineinläuft, wird zunächst einmal entmetallisiert, das heisst, alle Büroklammern, Heftklammern und so weiter müssen entfernt werden. Wir wollen jeden einzelnen Schnipsel scannen, und nicht einen Packen von Schnipseln."

Am Ende dann, um 2025 herum, sollen alle Stasi-Akten, ganze Vorgänge, rekonstruiert vorliegen, und zwar als sogenannte "Hardcopy", also wieder als Papier.

"Wenn Fraunhofer diese Schnipsel zu Seiten zusammengesetzt hat, werden diese virtuellen Seiten ausgedruckt, und wir nehmen dann diese Ausdrucke und machen aus diesen Einzelseiten wieder Vorgänge und Akten."

Ein Vorgang wäre das Schicksal des DDR-Schriftstellers und Dissidenten Jürgen Fuchs. Der Freund des Fraunhofer-Wissenschaftlers Bertram Nickolay war 1999 an Krebs gestorben. Jürgen Fuchs soll in der Stasi-Haft radioaktiv bestrahlt worden sein. Bertram Nickolay ist fest davon überzeugt, dass in einem der Säcke die entscheidenden Beweise dafür liegen, und dass man diese rekonstruieren kann.
Hier werden die Schnipsel vernichteter Stasi-Unterlagen eingescannt.
Hier werden die Schnipsel eingescannt.© Fraunhofer IPK/Gerold Baumhauer
Mehr zum Thema