Notenarchiv: Bildformate und Komprimierung

Datenmengen von 2 Megabyte pro Seite (komprimiert) sind für ein digitalisiertes Notenbuch einfach zu viel: Ein Songbook mit 200 Seiten wächst auf stattliche 200 Megabyte. Eine einzelne Datei wird unhandlich und eine Büchersammlung würde schnell die Größe eines Videoarchivs erreichen.

Die Farbtiefe hat den größten Anteil an der Datenmenge, sehen wir mal wie viel Daten eine DIN A4-Seite bei einer Auflösung von 300 dpi erzeugt:



FarbtiefDarstellungDatenmenge für eine Seite Din A4
1 BitSchwarz und Weiß1,07 MByte
8 Bit256 Graustufen8,54 MByte
24 BitRGB-Farbe, Bildschirm25,61 MByte


Diese Mengen sind unkomprimiert. Wir werden noch Luft raus lassen, aber farbige Seiten liefern eine Menge Holz. Notenblätter sind zum Glück in Schwarz und Weiß gedruckt. Mit dem Medion Dokumentenscanner A4, den ich im letzten Artikel beschrieben habe, entstehen immer JPEG-Dateien. Diese sind entweder farbig (24bit) oder Graustufen-Bilder (8bit), das heißt das wir alle Notenseiten noch in Schwarz und Weiß konvertieren müssen.

Noten scannen mit dem Handscanner

Diese Konvertierung zu Schwarz/Weiß kostet Details in den Bildern. Wenn in Graustufen gescannt wurde, setzt die Bildverarbeitung die Punkte anhand des Grauwertes entweder in Schwarz oder weiß um. Lag das Papier etwas wellig, wird auch der Hintergrund leicht grau und die schwarzen Linien verblassen etwas. Die Schrift bei Texten ist meist kräftig genug um auch in der kleinen Auflösung von 300 dpi zu überleben, bei Noten und Tabulatur reicht das nicht aus:

Die feinen Notenlinien verschwimmen mit dem Hintergrund und die Umsetzung in Schwarz/Weiß führt zu Unterbrechungen der Notenlinien und nicht lesbaren Zahlen in der Tabulatur. Noten sollten mit dem Dokumenten-Handscanner immer mit hoher Auflösung gescannt werden. Bei 600dpi vervierfacht sich die Dateigröße, aus 1.07 Megabyte werden unkomprimierte 4,28 Megabyte.

Coverseiten und Bilder scanne ich trotzdem in Farbe, allerdings nur mit geringer Auflösung (300dpi). Hier sind die Details nicht so wichtig: Farbverläufe sehen auch bei starker, verlustbehafteter Komprimierung noch ganz ordentlich aus.

Womit wir bei der Komprimierung sind: JPEG funktioniert nur für Graustufen und farbige Bilder. Mit der Komprimierungsrate kann man hier die Dateigröße bestimmen. Je stärker die Komprimierung, um so weniger Details werden gespeichert und irgendwann kommt es zu Artefakten. Artefakte sind Flächen mit einer einheitlichen Farbe, wo eigentlich ein Farbverlauf oder eine gemusterte Fläche sein sollte. Eine mittlere Jpeg-Komprimierung zwischen 30 und 40 sollte bietet ein solides Gleichgewicht zwischen Detailtreue und komprimierter Datenmenge.

Für die Schwarz/Weiß-Bilder kommt das Tiff-Datei-Format zum Einsatz. PNG und Gif bieten zwar auch 1Bit-Varianten an, aber mit einer bestimmten Komprimierung schlägt Tiff beide Formate um Längen: CCITT Fax4.

Die Fax-Komprimierung ist verlustfrei und eignet sich besonders für Texte: Jedes Pixel wird dargestellt, kein Detail geht verloren und die komprimierte Dateigröße ist je nach Schwarzanteil wirklich klein.

In einer PDF-Datei lassen sich Fax4-komprimierte Bilder und Jpg-Bilder beliebig mischen.

Jetzt kennst Du die Hintergründe, im nächsten Artikel zeige ich die Konvertierung ...