...
Info |
---|
Unsere Empfehlungen gelten für die Langzeitarchivierung von Publikationen und Forschungsdaten allgemein und sind nicht zwingend für eine Aufnahme Ihrer Daten in die Research Collection. |
1. Einschätzung verschiedener Dateiformate
Tabelle 1: Einschätzung zur zukünftigen Lesbarkeit einiger gebräuchlicher Dateiformate.
Dateiart | Geeignet zur Nutzung für mehr als zehn Jahre | Geeignet zur Nutzung beschränkt auf zehn Jahre | Nicht geeignet zur Archivierung |
---|---|---|---|
Text |
|
|
|
Spreadsheets und Tabellen |
|
|
|
Workspace Speicherung für Matlab, R oder S-Plus |
|
| |
Rastergrafik (Bitmap) |
|
| |
Vektorgrafik |
|
| |
Ton, Audio |
|
| |
Video |
|
|
|
1.1 Nutzung beschränkt auf zehn Jahre
Falls Sie Ihre Daten für höchstens zehn Jahre nutzen wollen, empfehlen wir die Formate in der mittleren und der linken Spalte von Tabelle 1. Auch weniger bekannte Formate, die in Ihrem Fachgebiet für diese Art von Daten üblich sind, sind normalerweise geeignet.
...
- Dateien in seltenen Formaten sollten Sie möglichst in übliche Formate konvertieren. Dabei sollten Sie jeweils Original und Kopie archivieren.
- Die Dateien sollten nicht auf andernorts gespeicherte Daten, Zeichensätzen, Formatvorlagen oder Programme verweisen sondern solche zusätzlichen Objekte sollten stattdessen mitarchiviert werden. Wenn solch eine Unabhängigkeit von externen Objekten nicht möglich ist, sollten Sie die bestehenden Abhängigkeiten in einer reinen Textdatei dokumentieren („Readme“). Das Readme legen Sie zusammen mit den Daten ab.
- Dateien sollten nicht passwortgeschützt, verschlüsselt oder komprimiert sein.
- Verwenden Sie nur Buchstaben, Zahlen, Unterstrich (_) und Bindestrich (-) in den Namen von Ordnern und Dateien, also keine Leerzeichen, Schrägstriche, Umlaute, usw.
- Die Dateinamenerweiterung sollte konsistent mit dem tatsächlichen Dateiformat sein.
1.2 Nutzung für mehr als zehn Jahre
Um Dateien für mehr als zehn Jahre zu nutzen, sollten zunächst auf jeden Fall die oben angegebenen Empfehlungen eingehalten werden. Zusätzlich sollten die Dateiformate sehr verbreitet sein, möglichst offenen Standards folgen und nicht proprietär sein. Es gibt jedoch keine Gewähr für die langfristige Nutzung, weil diese von zukünftigen Softwareentwicklungen abhängt.
...
Die ETH-Bibliothek wird die archivierten Dateiformate periodisch überprüfen und wird sich bemühen, veraltete Formate möglichst in gebräuchlichere Formate zu konvertieren. Die Originaldatei wird dabei immer mit-archiviert.
2. Empfohlene Konvertierungsmethoden
Empfohlene Konvertierungen sind in Tabelle 2 angegeben. Nützliche Konvertierungen hängen auch davon ab, welche Informationen in den Dateien benötigt werden. So könnten Sie die Tabellen in einem Excel File zu *.csv Text Files konvertieren. Falls jedoch Makros, Formeln oder eingebettete Objekte im Excel File vorhanden sind, verlieren sie diese Informationen.
...
Gewisse neuere Filetypen (*.docx, *.xlsx, *.pptx) sind sogenannte Container Dateien. Wenn Sie die Dateinamenerweiterung „.zip“ anhängen, können Sie die einzelnen Komponenten ansehen und geeignete einfachere Dateien auch zusätzlich separat speichern.
Tabelle 2: Empfohlene Dateikonvertierungen
Dateiart | Empfohlene Konvertierungen |
---|---|
Text |
|
Tabellen |
|
Workspace Dump in Matlab, R oder S-Plus |
|
Grafik |
|
3. Dateiformat-Verifikation mit DROID
Die kostenfreie JAVA Applikation DROID7 erlaubt Ihnen für grosse Dateisammlungen einen Überblick über die benutzten Dateiformate. Zudem können sowohl unbekannte Formate als auch Inkonsistenzen zwischen Inhalt und Dateinamenerweiterung ermittelt werden (Figur Abbildung 1).
Die meisten Fileformate, ausser den Textdateien, enthalten in den Dateien spezielle Zeichenfolgen um das Dateiformat anzugeben. Diese Zeichenfolgen werden auch Signatur genannt oder „magic numbers“. Falls DROID eine bekannte Signatur innerhalb einer Datei findet, so wird diese Methode benutzt um das Dateiformat zu bestimmen. Unter der Spalte „Method“ (siehe Figur 1) wird dann „Signature“ oder „Container“ angegeben. Falls die Signatur nicht mit der Dateinamenerweiterung übereinstimmt, zeigt DROID eine Warnung (gelbes Dreieck mit Ausrufezeichen).
Reine Text Dateien (*.txt) oder auch Tabellen in Text Format (*.csv Dateien) enthalten keine Signatur. DROID klassifiziert solche Dateien nur anhand der Dateinamenerweiterung. Falls keine Signatur gefunden wird und die Dateinamenerweiterung nicht auf ein Textfile hindeutet, so wird die Datei nicht klassifiziert (die untersten beiden Dateien in der FigurAbbildung).
Abbildung 1: Screenshot zur Auswertung einiger Testdateien mit dem Programm DROID. Dateien mit unklaren oder unbekannten Formaten können mit DROID schnell gefunden werden.
...