Auf Datenblättern von Scannern sind als Ausgabeformate in der Regel TIFF und JPG aufgeführt. Diese dienen dem Scandienstleister als Basis für die weitere Verarbeitung bis hin zum Ausgabeformat nach Kundenwunsch.
Eine von den Kunden häufig gestellte Frage ist die nach dem richtigen Bildformat. Letztendlich ist dies oft stark abhängig vom nachgelagerten Archivsystem des Kunden. Trotzdem ist es wichtig zu wissen, welche Formate für die jeweils zu digitalisierenden Unterlagen und Anforderungen des Kunden die beste Wahl sind. Wir haben für Sie in diesem Beitrag drei der gängigsten Ausgabeformate gegenübergestellt und ihre Vor- und Nachteile zusammengefasst.
TIFF
Das Tagged-Image-File-Format wurde bereits Mitte der 1980er Jahre gemeinsam von Microsoft und Aldus (1994 von Adobe übernommen) für die Farbseparation bei gescannten Rastergrafiken entwickelt. Es war bis zum Jahrtausendwechsel das bevorzugte Format, wenn es um die Archivierung gescannter Dokumente ging.
Durch die Kompressionsverfahren CCITT G3 oder G4 können digitalisierte Dateien auf ein Minimum reduziert werden. Allerdings gingen damit vorhandene Farbinformationen verloren. Für Schwarz-Weiß-Dokumente oder Unterlagen, bei denen das Thema Farbe keine Rolle spielt, stellt dies kein Problem dar. Enthalten die zu digitalisierenden Dokumente auch Bilder – beispielsweise Schadensunterlagen bei Versicherungen – können diese aber nicht mehr mit G4 komprimiert werden, so dass zwar farbige Dateien entstehen, diese ab im Vergleich zur G4-Komprimierung sehr groß werden.
Beim TIF-Format besteht zudem die Möglichkeit mehrseitige Dokumente in einem TIF abzulegen. Es handelt sich dann um ein Multitiff in dem durch Vor- und zurückblättern im Dokument navigiert werden kann.
+ kleine Dateigrößen bei Schwarz-Weiß-Bildern
+ mehrseitige Dokumente in einer Datei
– Farbinformationen erzeugen große Dateien
– keine Metadatenunterstützung
JPEG
Das JPEG-Format erblickte Anfang der 1990er Jahre das Licht der Welt. Die Bezeichnung ist auf die Joint Photographic Experts Group zurückzuführen, die das Format zur Kompression von Farbbildern entwickelte. Mittlerweile hat sich die Abkürzung „JPG“ durchgesetzt, was in der Dateiendung deutlich wird.
Es ist ein Bild- und weniger ein Dokumentenformat und kennt beispielsweise keine Seitenlogik. Das bedeutet, dass mehrseitige Dokumente in mehreren, einzelnen JPGs abgelegt sind. Hinzukommt, dass die Komprimierung je nach Konfiguration eigentlich klare Kanten bei Buchstaben verschwimmen lässt, was dazu führt, dass eine Volltexterkennung über OCR schlechtere Ergebnisse liefert. Um diesen Nachteil zu umgehen, müssen die Dokumente während der Verarbeitung beim Scandienstleister verlustfrei erstellt werden oder durch Binarisierung, also der Erzeugung eines TIFFs aus dem JPG, für die OCR-Lesung optimiert werden, wodurch die Dateien deutlich größer werden. Dieser Nachteil ist durch den Scandienstleister vor Übergabe an den Kunden durch eine erneute Komprimierung auszugleichen.
+ kleine Dateigrößen bei Bildern
+ echte Dokumentenwiedergabe da Farbinformationen enthalten sind
– mehrseitige Dokumente werden in mehreren JPGs abgespeichert
– schlechte OCR-Ergebnisse
PDF
Das Portable Document Format hat Adobe entwickelt und 1993 erstmals vorgestellt. Die damalige Intention des Adobe-Gründers John Warnock war, der IT-Welt ein leicht handhabbares Format zur Verfügung zu stellen, das wenig Speicherplatz benötigt und den Dateiaustausch zwischen unterschiedlichen Systemen erleichtert. Mittlerweile hat sich PDF als Dokumentenformat längst durchgesetzt. Dies liegt auch in der Tatsache begründet, dass Adobe es immer weiterentwickelt hat.
Funktionen, wie das Handling von Metadaten, die Einbindung digitaler Signaturen, integrierte Kompression, sind hinzugekommen und haben die Akzeptanz von PDF gefördert. So können beispielsweise bei einer Rechnung zusätzlich zum Image auch die zugehörigen Rechnungsdaten in der PDF abgelegt werden, was eine Weiterverarbeitung z. B. in Eingangsrechnungsprozessen vereinfacht. Der Markt stellt zahlreiche Lösungen zur Verfügung, um PDF-Dateien zu erzeugen, zu bearbeiten, zu komprimieren usw. Der derzeit aktuelle Stand ist PDF 2.0, der 2017 von der ISO veröffentlicht wurde.
Beispielsweise erstellen wir PDF-Dateien, die als Container für erzeugte TIFF oder JPG verwendet werden. Somit es möglich, in einer PDF-Datei farbige und schwarz-weiße Dokumente abzulegen. Die Erzeugung mehrseitiger Dokumente stellt ebenfalls kein Problem dar.
+ Text und Bild integrierbar
+ mehrseitige Dokumente in einer Datei
+ gute OCR-Ergebnisse, dadurch gegebene Durchsuchbarkeit des Dokumentes
+ Metadatenunterstützung
+ Geringer Speicherbedarf auch bei farbigen Dokumenten
PDF/A
Eine Unterspezifikation von PDF ist PDF/A, der ISO-Standard für die Langzeitarchivierung. Mit diesem Format stellen Sie die Reproduzierbarkeit Ihrer Dateien über Jahrzehnte hinweg sicher. Dies ist teilweise unabdingbar, beispielweise, wenn es um Kreditakten, Konstruktionszeichnungen, Patientenunterlagen oder einfach nur um Rechnungen geht. Um dies zu gewährleisten, sind im Standard bestimmte Vorschriften definiert. Beispielsweise muss eine PDF/A-Datei sämtliche Inhalte bereitstellen, was zu ihrer Darstellung erforderlich ist (z. B. Schriften), und darf nichts beinhalten, was diese Darstellung beeinträchtigen könnte (z. B. Fremdabhängigkeiten).
+ stabiles Langzeitformat
+ mehrseitige Dokumente in einer Datei
+ gute OCR-Ergebnisse, dadurch gegebene Durchsuchbarkeit des Dokumentes
+ kleine Dateigrößen unabhängig vom Inhalt
+ Metadatenunterstützung
Wir empfehlen unseren Kunden, digitalisierte Dokumente im PDF/A-Format abzulegen. TIFF sollte unseres Erachtens noch dann gewählt werden, wenn die Systeme, die die digitalen Images bearbeiten, nur dieses Format akzeptieren. JPEG als Bildformat kommt nur dann infrage, wenn die Farbinformation wichtig ist, die Dokumente sonst aber lediglich als „dumme“ Images abgelegt werden sollen.
Nehmen Sie mit uns Kontakt auf, wenn Sie zu den Formaten Fragen haben!
Entdecken Sie weitere Blogbeiträge von TROPPER DATA SERVICE
Neue Inhalte, funktionales Design: Website der TROPPER DATA SERVICE AG in neuem Gewand
Leverkusen. Die TROPPER DATA SERVICE AG hat ihre Internet-Präsenz neu gestaltet. Die komplett überarbeitete Website informiert neben dem eigenen Leistungsspektrum umfassend über sämtliche Facetten…
Webinar zur Whistleblower-Richtlinie und zum Hinweisgeberschutzgesetz
Unser Partner SD Worx veranstaltet gemeinsam mit der CURACON Rechtsanwaltsgesellschaft ein Webinar über das kommende Hinweisgeberschutzgesetz, das auf der EU-Whistleblower-Richtlinie basiert.
Case Study WDR: Digitalisierung der Produktionsakten
Der Westdeutsche Rundfunk Köln (WDR) lässt bereits seit einigen Jahren im regelmäßigen Turnus seine Produktionsakten sowie seine Verträge mit freien Mitarbeiter*innen digitalisieren und profitiert…
Jede Rechnung muss aufbewahrt werden
Unternehmen müssen Rechnungen mindestens zehn Jahre vorhalten, unabhängig davon, ob sie papierbasiert oder elektronisch vorliegen.
TROPPER DATA SERVICE ist neues Mitglied im Verband elektronische Rechnung (VeR)
Um über aktuelle Gesetzesänderungen stets auf dem aktuellen Stand zu sein, hat sich das Unternehmen nun dem VeR angeschlossen.