Programme und Dateiformate verändern sich im Laufe der Zeit, sodass alte Dateien nicht mehr zuverlässig gelesen werden können. Dies erschwert die langfristige Nutzung digitaler Information.
Die ETH Bibliothek gibt Ihnen deshalb an dieser Stelle Empfehlungen zur Archivtauglichkeit von Dateiformaten. Zudem wird erklärt, wie Sie Ihre Dateien allenfalls in geeignetere Formate konvertieren können und wie Sie mit der Software DROID aus grossen Datensammlungen für die Archivierung ungeeignete Dateien aufspüren können.
Unsere Empfehlungen gelten für die Langzeitarchivierung von Publikationen und Forschungsdaten allgemein und sind nicht zwingend für eine Aufnahme Ihrer Daten in die Research Collection. |
Tabelle 1: Einschätzung zur zukünftigen Lesbarkeit einiger gebräuchlicher Dateiformate.
Dateiart | Geeignet zur Nutzung für mehr als zehn Jahre | Geeignet zur Nutzung beschränkt auf zehn Jahre | Nicht geeignet zur Archivierung |
---|---|---|---|
Text |
|
|
|
Spreadsheets und Tabellen |
|
|
|
Workspace Speicherung für Matlab, R oder S-Plus |
|
| |
Rastergrafik (Bitmap) |
|
| |
Vektorgrafik |
|
| |
CAD |
| ||
Ton, Audio |
|
| |
Video |
|
|
|
Falls Sie Ihre Daten für höchstens zehn Jahre nutzen wollen, empfehlen wir die Formate in der mittleren und der linken Spalte von Tabelle 1. Auch weniger bekannte Formate, die in Ihrem Fachgebiet für diese Art von Daten üblich sind, sind normalerweise geeignet.
Es sollten zudem folgende Punkte beachtet werden:
Um Dateien für mehr als zehn Jahre zu nutzen, sollten zunächst auf jeden Fall die oben angegebenen Empfehlungen eingehalten werden. Zusätzlich sollten die Dateiformate sehr verbreitet sein, möglichst offenen Standards folgen und nicht proprietär sein. Es gibt jedoch keine Gewähr für die langfristige Nutzung, weil diese von zukünftigen Softwareentwicklungen abhängt.
Für eine Aufbewahrung von mehr als zehn Jahren können wir nur Dateiformate in der linken Kolonne von Tabelle 1 empfehlen, insbesondere PDF/A, ASCII Text undTIFF. Unter Umständen sind auch PNG, SVG und JPEG2000 geeignet. Dabei hängt die zukünftige Lesbarkeit einer Datei auch stark von den benutzten Formateigenschaften ab: Fortgeschrittene Möglichkeiten eines Formats, wie Video innerhalb einer PDF Datei, sind weniger langzeittauglich als die grundlegenden Möglichkeiten des Formats.
Für ausführlichere Informationen verweisen wir auf die Empfehlungen des Bundesarchivs2, der KOST3, des Forschungsdatenzentrums Archäologie & Altertumswissenschaften IANUS4, der Library of Congress5 und der Harvard Library6. Die Tabelle in Rimkus et al., 20147 fasst die Bewertungen verschiedener Archive zusammen.
Die ETH-Bibliothek wird die archivierten Dateiformate periodisch überprüfen und wird sich bemühen, veraltete Formate möglichst in gebräuchlichere Formate zu konvertieren. Die Originaldatei wird dabei immer mit-archiviert.
Empfohlene Konvertierungen sind in Tabelle 2 angegeben. Nützliche Konvertierungen hängen auch davon ab, welche Informationen in den Dateien benötigt werden. So könnten Sie die Tabellen in einem Excel File zu *.csv Text Files konvertieren. Falls jedoch Makros, Formeln oder eingebettete Objekte im Excel File vorhanden sind, verlieren sie diese Informationen.
Sie sollten die Qualität der Konvertierung sorgfältig visuell überprüfen. Originaldatei und konvertierte Datei sollten dann archiviert werden.
Gewisse neuere Filetypen (*.docx, *.xlsx, *.pptx) sind sogenannte Container Dateien. Wenn Sie die Dateinamenerweiterung „.zip“ anhängen, können Sie die einzelnen Komponenten ansehen und geeignete einfachere Dateien auch zusätzlich separat speichern.
Tabelle 2: Empfohlene Dateikonvertierungen
Dateiart | Empfohlene Konvertierungen |
---|---|
Text |
|
Tabellen |
|
Workspace Dump in Matlab, R oder S-Plus |
|
Grafik |
|
Die kostenfreie JAVA Applikation DROID11 erlaubt Ihnen für grosse Dateisammlungen einen Überblick über die benutzten Dateiformate. Zudem können sowohl unbekannte Formate als auch Inkonsistenzen zwischen Inhalt und Dateinamenerweiterung ermittelt werden (Abbildung 1).
Die meisten Fileformate, ausser den Textdateien, enthalten in den Dateien spezielle Zeichenfolgen, um das Dateiformat anzugeben. Diese Zeichenfolgen werden auch Signatur genannt oder „magic numbers“. Falls DROID eine bekannte Signatur innerhalb einer Datei findet, so wird diese Methode benutzt um das Dateiformat zu bestimmen. Unter der Spalte „Method“ (siehe Figur 1) wird dann „Signature“ oder „Container“ angegeben. Falls die Signatur nicht mit der Dateinamenerweiterung übereinstimmt, zeigt DROID eine Warnung (gelbes Dreieck mit Ausrufezeichen).
Reine Text Dateien (*.txt) oder auch Tabellen in Text Format (*.csv Dateien) enthalten keine Signatur. DROID klassifiziert solche Dateien nur anhand der Dateinamenerweiterung. Falls keine Signatur gefunden wird und die Dateinamenerweiterung nicht auf ein Textfile hindeutet, so wird die Datei nicht klassifiziert (die untersten beiden Dateien in der Abbildung).
Die ETH Bibliothek empfiehlt und konfiguriert für gewisse Kunden das Software Tool docuteam packer. Auch docuteam packer findet Dateien mit unklaren oder unbekannten Formaten und erstellt eine Liste analog zu derjenigen von DROID.
Abbildung 1: Screenshot zur Auswertung einiger Testdateien mit dem Programm DROID. Dateien mit unklaren oder unbekannten Formaten können mit DROID schnell gefunden werden.
Stand und Zugriff auf Quellen: 13. März 2017:
1 http://support.apple.com/de-ch/HT5923 (OS X: Bewährte Vorgehensweisen und Methoden für plattformübergreifende Dateinamen, 23.12.2013)
2 https://www.bar.admin.ch/dam/bar/de/dokumente/konzepte_und_weisungen/archivtaugliche_dateiformate.1.pdf.download.pdf/archivtaugliche_dateiformate.pdf (Archivtaugliche Dateiformate - Schweizerisches Bundesarchiv, Version vom Januar 2014)
3 http://kost-ceco.ch/wiki/whelp/KaD/index.php?ld (Katalog archivischer Dateiformate, kost-ceco)
4 http://www.ianus-fdz.de/it-empfehlungen/dateiformate (IANUS, Forschungsdatenzentrum Archäologie & Altertumswissenschaften)
5 https://www.loc.gov/preservation/digital/formats/fdd/descriptions.shtml (Library of Congress, Digital Preservation, Sustainability of Digital Formats: Planning for Library of Congress Collections)
6 https://wiki.harvard.edu/confluence/display/digitalpreservation/Formats+Supported+by+the+DRS, (Formats Supported by the DRS, Harvard Library)
7 https://www.ideals.illinois.edu/bitstream/handle/2142/47421/FileFormatStatistics.pdf?sequence=4 (Data from “Digital Preservation File Format Policies of ARL Member Libraries: An Analysis”, Kyle Rimkus, Thomas Padilla, Tracy Popp and Greer Martin, D-Lib Magazine, Volume 20, Number 3/4, March/April 2014, doi:10.1045/march2014-rimkus)
8 https://support.hdfgroup.org/HDF5/doc1.8/UG/HDF5_Users_Guide.pdf (HDF5 User's Guide, HDF5 Release 1.8.x, November 2015)
9 http://www.bioconductor.org/packages/release/bioc/vignettes/rhdf5/inst/doc/rhdf5.pdf (rhdf5 - HDF5 interface for R, Bernd Fischer, 13. Okt. 2014)
10 http://cran.r-project.org/doc/manuals/r-release/R-data.html#EpiInfo-Minitab-SAS-S_002dPLUS-SPSS-Stata-Systat (R. Data Import/Export, 5. Dez., 2014)
11 http://www.nationalarchives.gov.uk/information-management/manage-information/preserving-digital-records/droid/ (Download DROID: file format identification tool; The National Archives, Version 6.1.5)