Page tree
Skip to end of metadata
Go to start of metadata

Programme und Dateiformate verändern sich im Laufe der Zeit, sodass alte Dateien nicht mehr zuverlässig gelesen werden können. Dies erschwert die langfristige Nutzung digitaler Information.

Im Folgenden erläutern wir die Mindestanforderungen für die Aufnahme von Publikationen in die Repositorien der ETH-Bibliothek (Research Collection und ETH Data Archive) und geben unsere Einschätzung zur Archivtauglichkeit von Dateiformaten. Zudem wird erklärt, wie Sie Ihre Dateien allenfalls in geeignetere Formate konvertieren können und wie Sie mit der Software DROID aus grossen Datensammlungen für die Archivierung ungeeignete Dateien aufspüren können.  

1. Mindestanforderungen

1.1 Publikationen in der Research Collection (Textformate)

Zur Publikation des Forschungsbeitrages sind die empfohlenen (Tabelle 1, Spalte 1) und einige bedingt geeignete Textformate zugelassen (Tabelle 1, erster Abschnitt Spalte 2). Zugelassen sind also die Formate PDF/A und PDF. Nicht zugelassen für den Forschungsbeitrag sind ungeeignete Text-Formate (Tabelle 1, Spalte 3) und einige der Textformate die nur bedingt zur Archivierung geeignet sind (Tabelle 1, zweiter Abschnitt Spalte 2), wie Word oder PowerPoint Formate.

1.2 Forschungsdaten und Supplementary Materials

Für die Veröffentlichung von Daten in den Repositorien der ETH Zürich ist ein langzeittaugliches Format keine Voraussetzung. Bitte beachten Sie jedoch, dass die zukünftige Nutzung durch problematische Formate massiv erschwert werden kann und lesen Sie die untenstehenden Einschätzungen zu verschiedenen Dateiformaten.

2. Einschätzung verschiedener Dateiformate

Tabelle 1: Unsere Einschätzung zur zukünftigen Lesbarkeit einiger gebräuchlicher Dateiformate. (Für ausführlichere Informationen verweisen wir auf die Empfehlungen des Bundesarchivs, der KOST, des Vereins zur Erhaltung des audiovisuellen Kulturgutes der Schweiz Memoriav, des Forschungsdatenzentrums Archäologie & Altertumswissenschaften IANUS, der Library of Congress und der Harvard Library.)

Dateiart

Empfohlen

Bedingt geeignetNicht geeignet
Text
  • PDF/A (*.pdf)
  • Unformatierter Text (*.txt, *.asc, *.c, *.h, *.cpp, *.m, *.py usw.) kodiert als ASCII, UTF-8, oder UTF-16 mit Byte Order Mark
  • XML (inklusive XSD/XSL/XHTML, etc.; wobei Schema und Buchstabenkodierung explizit im File angegeben werden sollen)
  • PDF (*.pdf), wobei die Fonts im PDF File eingebettet sein müssen
  • Unformatierter Text (*.txt, *.asc, *.c, *.h, *.cpp, *.m, *.py usw.) (ISO 8859-1 kodiert)
  • Rich Text Format (*.rtf)
  • HTML und XML (Die ASCII Texte sind langfristig lesbar; externe Links möglichst vermeiden)

Nicht akzeptiert für Publikation, akzeptiert für Supplementary Materials:

  • Word *.docx
  • PowerPoint *.pptx
  • LaTeX und TeX (Die ASCII Texte sind langfristig lesbar; allenfalls benutzte lizenzfreie Softwarepakete mit Spezialfonts und resultierendes PDF sollten mitgeliefert werden)
  • OpenDocument Formate (*.odm, *.odt, *.odg, *.odc, *.odf)
  • Word *.doc
  • PowerPoint *.ppt
Spreadsheets und Tabellen
  • Komma- oder Tab-begrenzte Text Files (*.csv)
  • Excel *.xlsx (Containerformat)
  • OpenDocument Formate (*.odm, *.odt, *.odg, *.odc, *.odf)
  • Excel *.xls, *.xlsb (binäre Formate)
Rohdaten und Workspace 
  • ASCII Text ist langfristig nutzbar, die spätere maschinelle Lesbarkeit ist jedoch unter Umständen aufwendig.
  • S-Plus (*.sdd) am ehesten als Text-Dateien speichern.
  • Matlab *.mat am ehesten in HDF5 Format speichern. Nichttriviale Matlab *.mat ASCII Files vermeiden, denn sie können mit load nicht gelesen werden (siehe Tabelle 2).
  • Network Common Data Format oder NetCDF (*.nc, *.cdf)
  • Hierarchical Data Format (HDF5) (*.h5, *.hdf5, *.he5)
  • Binäre Dateien wie Matlab Dateien *.mat (binär), R Dateien *.RData
Rastergrafik (Bitmap)
  • TIFF (*.tif) (unkomprimiert, möglichst TIFF 6.0, Part 1: Baseline TIFF) TIFF wird gegenüber PNG und JPEG2000 bevorzugt.
  • Portable Network Graphics (*.png, compression level 0)
  • JPEG2000 (verlustfreie Komprimierung)
  • Digital-Negative-Format (*.dng) falls man zusätzlich zu TIFF Files auch Rohdaten von digitalen Fotos behalten möchte.
  • TIFF (*.tif) (komprimiert)
  • GIF (*.gif)
  • BMP (*.bmp)
  • JPEG/JFIF (*.jpg)
  • JPEG2000 (verlustbehaftete Komprimierung) (*.jp2)
 
Vektorgrafik
  • SVG ohne JavaScript binding (*.svg)
 
  • Grafik InDesign (.indd), Illustrator (.ait)
  • Encapsulated Postscript (EPS)
CAD
  • AutoCAD Drawing (*.dwg)
  • Drawing Interchange Format, AutoCAD (*.dxf) 
  • Extensible 3D, X3D (*.x3d, *.x3dv, *.x3db)
  
Ton, Audio
  • WAV (*.wav) (unkomprimiert, pulse-code moduliert)
  • Advanced Audio Coding (*.mp4)
  • MP3 (*.mp3)
 
Video
  • FFV1 Codec in Matroska Container (*.mkv)
  • Motion JPEG 2000 (ISO/ IEC15444-4) (*.mj2)
  • AVI (unkomprimiert, motion JPEG) (*.avi)
  • QuickTime Movie (unkomprimiert, motion JPEG) (*.mov)
  • MPEG-1, MPEG-2 (*.mpg,*.mpeg, in den Container Formaten AVI oder MOV)
  • MPEG-4 (H.263, H.264) (*.mp4, in den Container Formaten AVI oder MOV)
  • Windows Media Video (*.wmv)

 

2.1 Bedingt geeignete Dateiformate 

Falls Sie Ihre Daten für höchstens zehn Jahre nutzen wollen, empfehlen wir die Formate in der mittleren und der linken Spalte von Tabelle 1. Auch weniger bekannte Formate, die in Ihrem Fachgebiet für diese Art von Daten üblich sind, sind normalerweise geeignet.

Es sollten zudem folgende Punkte beachtet werden:

  • Dateien in seltenen Formaten sollten Sie möglichst in übliche Formate konvertieren. Dabei sollten Sie jeweils Original und Kopie archivieren.
  • Die Dateien sollten nicht auf andernorts gespeicherte Daten, Zeichensätze, Formatvorlagen oder Programme verweisen, sondern solche zusätzlichen Objekte sollten stattdessen mitarchiviert werden. Wenn solch eine Unabhängigkeit von externen Objekten nicht möglich ist, sollten Sie die bestehenden Abhängigkeiten in einer reinen Textdatei dokumentieren („Readme“). Das Readme legen Sie zusammen mit den Daten ab.
  • Dateien sollten nicht passwortgeschützt, verschlüsselt oder komprimiert sein. Falls Sie zwingend Daten verschlüsseln müssen, treffen Sie Vorkehrungen, damit Daten auch nach Ihrem Weggang von einer berechtigen Person geöffnet werden können.
  • Verwenden Sie nur Buchstaben, Zahlen, Unterstrich (_) und Bindestrich (-) in den Namen von Ordnern und Dateien, also keine Leerzeichen, Schrägstriche, Umlaute usw. (siehe auch diese Aufstellung).
  • Die Dateinamenerweiterung sollte konsistent mit dem tatsächlichen Dateiformat sein.

2.2 Empfohlene Dateiformate 

Für eine Aufbewahrung von mehr als zehn Jahren können wir nur Dateiformate in der linken Kolonne von Tabelle 1 empfehlen, insbesondere PDF/A, ASCII Text und TIFF. Unter Umständen sind auch PNG, SVG und JPEG2000 geeignet. Dabei hängt die zukünftige Lesbarkeit einer Datei auch stark von den benutzten Formateigenschaften ab: Fortgeschrittene Möglichkeiten eines Formats, wie Video innerhalb einer PDF Datei, sind weniger langzeittauglich als die grundlegenden Möglichkeiten des Formats.

Um Dateien für mehr als zehn Jahre zu nutzen, sollten die Dateiformate sehr verbreitet sein, möglichst offenen Standards folgen und nicht proprietär sein. Es gibt jedoch keine Gewähr für die langfristige Nutzung, weil diese von zukünftigen Softwareentwicklungen abhängt.

Die ETH-Bibliothek wird die archivierten Dateiformate periodisch überprüfen und sich bemühen, veraltete Formate möglichst in gebräuchlichere Formate zu konvertieren. Die Originaldatei wird dabei immer mit-archiviert.

3. Empfohlene Konvertierungsmethoden

Empfohlene Konvertierungen sind in Tabelle 2 angegeben. Nützliche Konvertierungen hängen auch davon ab, welche Informationen in den Dateien benötigt werden. So könnten Sie die Tabellen in einem Excel File zu *.csv Text Files konvertieren. Falls jedoch Makros, Formeln oder eingebettete Objekte im Excel File vorhanden sind, verlieren Sie diese Informationen.

Sie sollten die Qualität der Konvertierung sorgfältig visuell überprüfen. Originaldatei und konvertierte Datei sollten dann archiviert werden.

Gewisse neuere Filetypen (*.docx, *.xlsx, *.pptx) sind sogenannte Container Dateien. Wenn Sie die Dateinamenerweiterung „.zip“ anhängen, können Sie die einzelnen Komponenten ansehen und geeignete einfachere Dateien auch zusätzlich separat speichern.

Tabelle 2: Empfohlene Dateikonvertierungen

DateiartEmpfohlene Konvertierungen
Text
  • Sie sollten Word- und PowerPoint-Dateien möglichst zu PDF/A-1b Dateien konvertieren. Für Microsoft-Dateien, Word- oder PowerPoint-Dateien führt gemäss unseren Tests folgende Methode häufig zu akzeptablen Resultaten: Die Datei mit Word oder PowerPoint öffnen, dann unter Menu „Datei“ „Drucken“ auswählen. Bei Drucker „Adobe PDF“ auswählen. Das Feld „Druckereigenschaften“ anwählen und dort „PDF/A-1b: 2005 (RGB)“ auswählen. Dann Schaltfläche „Drucken“. Vgl. auch die ausführliche Anleitung zu diesem Thema.
  • LaTeX oder TeX möglichst zu PDF/A konvertieren.
  • Sie müssen die Qualität von Konvertierungen sorgfältig visuell überprüfen. Achten Sie dabei insbesondere auf Formeln, Sonderzeichen, Umlaute, spezielle Fonts, Textschreibfehler, Auswählen und Suchen im Text, Tabellen, Farben, transparente Objekte, Kommentare, Vektorgraphiken sowie mehrfache Zeichenebenen.
Tabellen
  • Excel *.xls Dateien zu *.xlsx konvertieren
  • Für wichtige eingebettete Objekte (wie z. B. Figuren) sollten sie möglichst auch eine Kopie als separate Datei abspeichern.
  • Tabellen könnten Sie folgendermassen zu ASCII Text-Dateien (*.csv) konvertieren: In Excel die einzelnen Blätter als *.csv Datei speichern, in R Tabellen mit write.csv speichern und in S-Plus mit „write.table“ als *.sdd Datei speichern.
Workspace Dump in Matlab, R oder S-Plus
  • Matlab *.mat Files als v7.3 MAT Dateien abspeichern (mit save -v7.3 x.mat), weil es dadurch einem HDF5-basierten Standard folgt. (HDF5 ist ein offener Standard für Tabellen, Mediadaten und komplexe Datenstrukturen.)
  • Der R Workspace sollte mit dem Packet rhadf5 in HDF5 Format gespeichert werden. Die S-Plus Funktion data.dump produziert ein File, welches mit der R-Funktion data.restore gelesen werden kann.
  • Für komplexe Datenstrukturen ist es meist nicht sinnvoll den Workspace als ASCII zu speichern, weil dies auf schwer lesbare Dateien führt. (Einen solchen ASCII Workspace Dump erhält man in mit save(…, ascii = TRUE), in Matlab mit save file.txt –ascii und in S-Plus mit dump().)
  • Wichtige Tabellen im Workspace sollten zusätzlich als CSV-Datei gespeichert werden.
Grafik
  • Vektorgrafikdateien werden langfristig eher schwieriger zu öffnen sein als Rastergrafikdateien (Bitmaps). Auch das Einbetten von Vektorgrafik in PDF-Dateien ist fehleranfällig. Dateien in speziellen Vektorgrafik Formaten, wie InDesign (*.indd) oder Illustrator (*.ait), sollten Sie möglichst auch in einem geeigneteren Format speichern (linke Spalte in Tabelle 1). Sie sollten die Qualität der Konvertierung sorgfältig visuell überprüfen (Schärfe, Auflösung, Farben, transparente Objekte, Beschriftungen).

 

4. Dateiformat-Verifikation mit DROID

Die kostenfreie JAVA Applikation DROID erlaubt Ihnen für grosse Dateisammlungen einen Überblick über die benutzten Dateiformate. Zudem können sowohl unbekannte Formate als auch Inkonsistenzen zwischen Inhalt und Dateinamenerweiterung ermittelt werden (Abbildung 1).

Die meisten Fileformate, ausser den Textdateien, enthalten in den Dateien spezielle Zeichenfolgen, um das Dateiformat anzugeben. Diese Zeichenfolgen werden auch Signatur genannt oder „magic numbers“. Falls DROID eine bekannte Signatur innerhalb einer Datei findet, so wird diese Methode benutzt um das Dateiformat zu bestimmen. Unter der Spalte „Method“ (siehe Figur 1) wird dann „Signature“ oder „Container“ angegeben. Falls die Signatur nicht mit der Dateinamenerweiterung übereinstimmt, zeigt DROID eine Warnung (gelbes Dreieck mit Ausrufezeichen).

Reine Text Dateien (*.txt) oder auch Tabellen in Text-Format (*.csv Dateien) enthalten keine Signatur. DROID klassifiziert solche Dateien nur anhand der Dateinamenerweiterung. Falls keine Signatur gefunden wird und die Dateinamenerweiterung nicht auf ein Textfile hindeutet, wird die Datei nicht klassifiziert (die untersten beiden Dateien in der Abbildung 1).

Die ETH-Bibliothek empfiehlt und konfiguriert für gewisse Kunden das Software Tool docuteam packer. Auch docuteam packer findet Dateien mit unklaren oder unbekannten Formaten und erstellt eine Liste analog zu derjenigen von DROID.

Abbildung 1: Screenshot zur Auswertung einiger Testdateien mit dem Programm DROID. Dateien mit unklaren oder unbekannten Formaten können mit DROID schnell gefunden werden.

 

 

 

  • No labels