Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

DateiartEmpfohlene Konvertierungen
Text
  • Sie sollten Word und PowerPoint Dateien möglichst zu PDF/A-1b Dateien konvertieren. Für Microsoft-Dateien Word oder PowerPoint Dateien sollte führt dazu gemäss unseren Tests folgende Methode verwendet werdenhäufig zu akzeptablen Resultaten: Die Datei mit Word oder PowerPoint öffnen, dann unter Menu "Datei", „Drucken“ auswählen. Bei Drucker „Adobe PDF“ auswählen. Das Feld „Druckereigenschaften“ anwählen und dort „PDF/A-1b: 2005 (RGB)“ auswählen. Dann Schaltfläche „Drucken“. Vgl. auch die ausführliche Anleitung zu diesem Thema.
  • LaTeX oder TeX möglichst zu PDF/A konvertieren.
  • Sie müssen die Qualität von Konvertierungen sorgfältig visuell überprüfen. Achten Sie dabei insbesondere auf Formeln, Sonderzeichen, Umlaute, spezielle Fonts, Textschreibfehler, Auswählen und Suchen im Text, Tabellen, Farben, transparente Objekte, Kommentare, Vektorgraphiken sowie mehrfache Zeichenebenen.
Tabellen
  • Excel *.xls Dateien zu *.xlsx konvertieren
  • Für wichtige eingebettete Objekte (wie z. B. Figuren) sollten sie möglichst auch eine Kopie als separate Datei abspeichern
  • Tabellen könnten Sie folgendermassen zu ASCII Text Dateien (*.csv) konvertieren: In Excel die einzelnen Blätter als *.csv Datei speichern, in R Tabellen mit write.csv speichern und in S-Plus mit „write.table“ als *.sdd Datei speichern.
Workspace Dump in Matlab, R oder S-Plus
  • Matlab *.mat Files als v7.3 MAT Dateien abspeichern (mit save -v7.3 x.mat), weil es dadurch einem HDF5-basierten Standard folgt. (HDF54 HDF58 ist ein offener Standard für Tabellen, Mediadaten und komplexe Datenstrukturen.)
  • Der R Workspace sollte mit dem Packet rhadf55 rhadf59 in HDF5 Format gespeichert werden. Die S-Plus Funktion data.dump produziert ein File welches mit der R-Funktion data.restore6 restore10 gelesen werden kann.
  • Für komplexe Datenstrukturen ist es meist nicht sinnvoll den Workspace als ASCII zu speichern, weil dies auf schwer lesbare Dateien führt. (Einen solchen ASCII Workspace Dump erhält man in mit save(…, ascii = TRUE), in Matlab mit save file.txt –ascii und in S-Plus mit dump().)
  • Wichtige Tabellen im Workspace sollten zusätzlich als CSV-Datei gespeichert werden.
Grafik
  • Vektorgrafikdateien werden langfristig eher schwieriger zu öffnen sein als Rastergrafikdateien (Bitmaps). Auch das Einbetten von Vektorgrafik in PDF Dateien ist fehleranfällig. Dateien in speziellen Vektorgrafik Formaten, wie InDesign (*.indd) oder Illustrator (*.ait), sollten Sie möglichst auch als baseline TIFF, PDF/A-1b (siehe oben), SVG oder JPG Datei speichernin einem geeigneteren Format speichern (linke Spalte in Tabelle 1). Sie sollten die Qualität der Konvertierung sorgfältig visuell überprüfen (Schärfe, Auflösung, Farben, halbdurchsichtige Objekte, Beschriftungen).

...

Die kostenfreie JAVA Applikation DROID7 DROID11 erlaubt Ihnen für grosse Dateisammlungen einen Überblick über die benutzten Dateiformate. Zudem können sowohl unbekannte Formate als auch Inkonsistenzen zwischen Inhalt und Dateinamenerweiterung ermittelt werden (Abbildung 1).

Die meisten Fileformate, ausser den Textdateien, enthalten in den Dateien spezielle Zeichenfolgen, um das Dateiformat anzugeben. Diese Zeichenfolgen werden auch Signatur genannt oder „magic numbers“. Falls DROID eine bekannte Signatur innerhalb einer Datei findet, so wird diese Methode benutzt um das Dateiformat zu bestimmen. Unter der Spalte „Method“ (siehe Figur 1) wird dann „Signature“ oder „Container“ angegeben. Falls die Signatur nicht mit der Dateinamenerweiterung übereinstimmt, zeigt DROID eine Warnung (gelbes Dreieck mit Ausrufezeichen).

Reine Text Dateien (*.txt) oder auch Tabellen in Text Format (*.csv Dateien) enthalten keine Signatur. DROID klassifiziert solche Dateien nur anhand der Dateinamenerweiterung. Falls keine Signatur gefunden wird und die Dateinamenerweiterung nicht auf ein Textfile hindeutet, so wird die Datei nicht klassifiziert (die untersten beiden Dateien in der Abbildung).

Die ETH Bibliothek empfiehlt und konfiguriert für gewisse Kunden das Software Tool docuteam packer. Auch docuteam packer findet Dateien mit unklaren oder unbekannten Formaten und erstellt eine Liste analog zu derjenigen von DROID.

Abbildung 1: Screenshot zur Auswertung einiger Testdateien mit dem Programm DROID. Dateien mit unklaren oder unbekannten Formaten können mit DROID schnell gefunden werden.

...