Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Reverted from v. 22

 

Die nachfolgenden Empfehlungen gelten für den manuellen Upload von Dateien über das Webinterface ins ETH Data Archive (http://data-archive.ethz.ch/deposit).

Im ersten Teil dieses Dokuments wird erklärt, wie Sie Ihre Dateien und Ordner vorbereiten können, damit ihre Daten möglichst langfristig lesbar bleiben.

Für die befristete Archivierung von grösseren Mengen heterogener Forschungsdaten empfehlen wir zur Zeit das Packen der Dateien in Containerformate. Hinweise zum Vorgehen beim Erzeugen von ZIP- oder Tar-Containern und zur Wahl des geeigneten Tools finden Sie im zweiten Teil dieses Dokuments.

1. Daten vorbereiten

Daten selektieren 

Wählen Sie nur Daten, die einen wissenschaftlichen Bezug haben und auch wirklich langfristig verfügbar bleiben sollen, für die Archivierung aus. Entsorgen Sie „Datenschrott" und vermeiden Sie Redundanzen wie ZIP-Files neben entpackten ZIP-Inhalten, mehrfache Backups oder temporäre Dateien. Private Daten gehören nicht ins ETH Data Archive.

 

Offene Formate wählen 

Im Hinblick auf eine langfristige Lesbarkeit sollten Sie darauf achten, dass Ihre Daten nach Möglichkeit in nicht-proprietären Formaten gemäss offenen, dokumentierten Standards gespeichert sind. Wenn die Daten länger als 10 Jahre nutzbar bleiben sollen, empfiehlt es sich, seltene Formate in gebräuchlichere zu konvertieren. Hinweise dazu gibt Ihnen unser Merkblatt zum Thema Archivtaugliche Dateiformate.

 

Sonderzeichen vermeiden

...

Bitte beachten Sie die folgenden Informationen beim Vorbereiten Ihrer Publikationen und Forschungsdaten für den Upload.

Empfehlungen für Publikationen und Forschungsdaten

1. Passwortschutz, Verschlüsselung und Komprimierung vermeiden

Dateien sollten nicht passwortgeschützt, verschlüsselt oder komprimiert sein.

2. Sonderzeichen vermeiden

Verwenden Sie nur Buchstaben, Zahlen, Unterstrich (_) und Bindestrich (-) in den Namen von Ordnern und Dateien, also keine Leerzeichen, Schrägstriche, Umlaute usw. Solche Zeichen erschweren die Kompatibilität, da sie je nach Betriebssystem unerwünschte Effekte erzeugen.

Problematische Zeichen sind:

\ / ? : * " > < |

...

: # % " { } | ^ [ ] ` ~ sowie Leerzeichen

Nicht-ASCII-Zeichen wie z.B. ¢ ™ ® , Umlaute (ä ö ü), diakritische Zeichen wie à é ô

...

 usw.

Erlaubt sind folgende ASCII-Zeichen:

ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789

Zudem sind uns bei folgenden Zeichen bis jetzt keine Probleme bekannt:

!#$% $ & ' ( ) + , - . 0123456789 ; = @ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_` abcdefghijklmnopqrstuvwxyz{}~@ _ 

3. Dateiendung bewusst verwenden

Die Dateiendung (z.B. .txt, .pdf) sollte mit dem tatsächlichen Dateiformat konsistent sein. Vermeiden Sie es, Dateien ohne Endung zu speichern. Vermeiden Sie Sonderzeichen in der Dateiendung.

Länge der Datei- und Ordnernamen beschränken. 

Vermeiden Sie bei der Organisation Ihrer Daten überlange Pfade. Eine Kombination von langen Dateinamen mit fein abgestuften Ordnerstrukturen kann schnell zu Pfadlängen über 256 Zeichen führen. Diese sind bei der Weiterverarbeitung der Daten auf Windows problematisch.1

Sonderzeichen in den Dateinamen sowie das Auspacken von Containern in Unterordnern können die Pfade zusätzlich verlängern. Daher empfehlen wir im Sinne einer Faustregel eine maximale Pfadlänge von 200 Zeichen.

 

...

Weiterführende Empfehlungen für Forschungsdaten

1. Daten selektieren

Wählen Sie nur Daten, die einen wissenschaftlichen Bezug haben und auch wirklich langfristig verfügbar bleiben sollen, für die Publikation/Archivierung aus. Vermeiden Sie Redundanzen wie ZIP-Files neben entpackten ZIP-Inhalten, mehrfache Backups oder temporäre Dateien. Private Daten gehören nicht in die Research Collection.

2. Offene Formate wählen

Im Hinblick auf eine langfristige Lesbarkeit sollten Sie darauf achten, dass Ihre Daten nach Möglichkeit in nicht-proprietären Formaten gemäss offenen, dokumentierten Standards gespeichert sind. Wenn die Daten länger als 10 Jahre nutzbar bleiben sollen, empfiehlt es sich, seltene Formate in gebräuchlichere zu konvertieren. Hinweise dazu gibt Ihnen die Anleitung zum Thema Archivtaugliche Dateiformate für Forschungsdaten.

3. Packen von Dateien in ZIP- oder Tar-Archive

Für die befristete Publikation bzw. Archivierung von grösseren Mengen heterogener Forschungsdaten im ETH Data Archive ohne aktive Validierungs- und Erhaltungsmassnahmen empfehlen wir zur Zeit das Packen der Dateien in Containerformate (ZIP oder Tar). Dieses Verfahren erlaubt es, sämtliche zu einem Archivpaket gehörenden Dateien in einem Schritt hochzuladen und auch als Gesamtpaket wieder herunterzuladen. Dabei bleiben ursprüngliche Ordnerstrukturen gewahrt.

 

Daten vorbereiten 

Auch bei der Verwendung von Containern ist auf eine vorbereitende Pflege der Daten gemäss den Hinweisen im ersten Teil diese Dokuments zu achten. Die zu archivierenden Dateien sollten sorgfältig ausgewählt werden und ihr Inhalt möglichst klar dokumentiert sein. Zudem sollten die benutzten Dateiformate in 10 oder 15 Jahren noch lesbar sein.

 

Unkomprimierte *.zip und *.tar Dateien sollten langfristig entpackt werden können.

3.1 Länge der Datei- und Ordnernamen beschränken

Bitte beachten Sie, dass sich die ursprünglichen Ordnerstrukturen aus den Containern in verschiedenen Betriebssystemen wiederherstellen lassen sollten. Vermeiden Sie daher bei der Organisation Ihrer Daten überlange Pfade. Eine Kombination von langen Dateinamen mit fein abgestuften Ordnerstrukturen kann schnell zu Pfadlängen über 256 Zeichen führen. Diese sind bei der Weiterverarbeitung der Daten auf Windows problematisch, und WinZip kann Pakete mit überlangen Pfaden gar nicht vollständig entpacken. Vgl. auch die Empfehlungen unter Punkt 1.

 

Grosse Datenpakete portionieren . Sonderzeichen in den Dateinamen sowie das Auspacken von Containern in Unterordnern können die Pfade zusätzlich verlängern. Daher empfehlen wir im Sinne einer Faustregel eine maximale Pfadlänge von 200 Zeichen.

3.2 Grosse Datenpakete portionieren

Grosse Datenmengen können sowohl beim Upload als auch beim späteren Download über den Viewer Schwierigkeiten bereiten. Ab welcher Menge die Probleme auftreten, ist von verschiedenen Faktoren abhängig, die wir nicht beeinflussen können (Browser, Internetverbindung). Es hat sich gezeigt, dass Uploads von bis zu 15 GB Grösse zwar technisch möglich sind. Pakete in dieser Grössenordnung werden sich aber über den Browser kaum herunterladen lassen. Daher empfehlen wir eine

Wir empfehlen eine maximale Grösse pro ZIP- oder Tar-Datei von 2 10 GB. . Falls die Grösse Ihres Archivpakets diesen Wert überschreitet, teilen Sie es bitte in sinnvolle Untereinheiten auf und packen Sie diese in einzelne ZIP- oder Tar-Container. Mit einem Mehrfach-Dateiupload können Sie diese als eine Einheit hochladen. Bitte benutzen Sie für die Aufteilung nicht die Split-Funktion in WinZip!

 

...

.

Die kumulierte Datenmenge pro Eintrag in der Research Collection sollte zudem auf 50 GB beschränkt werden.

3.3 Anleitung zum Erzeugen von Containern

...

  • Erzeugen Sie Archive (Container Dateien) ausschliesslich

...

  • mit der Endung .zip oder .tar (kein .7z, tar.gz, .rar

...

  • usw.).

• Falls Sie ZIP-Archive erzeugen, zippen Sie Ihre Daten bitte ohne Komprimierung.

...

  • Verwenden Sie innerhalb ihrer .zip oder .tar Datei keine weiteren Archiv-Dateien
  • Erstellen Sie Container bitte ohne Komprimierung (also Kompressionsstärke “speichern” auswählen)
  • Wenden Sie keine Passwort-Verschlüsselung an.

 

Formate und geeignete Tools

...

Windows

Windows-Nutzer werden eher sollten ZIP-Archive generieren , in einer Mac-Umgebung hingegen wird in der Regel das Tar-Format bevorzugt.

Das Tar-Format bietet für die langfristige Aufbewahrung den Vorteil, dass es ein offen dokumentiertes und nicht an einen Hersteller gebundenes Format ist.

Windows:

Format: .zip, unkomprimiert.

Empfohlenes Tool: 7-Zip2

 

Mac:

Format: .tar

Empfohlenes Tool. Keka3

Oder mit Befehl „Tar" auf der Kommandozeile

 

1 Für den Dateinamen selber gilt auch in anderen Betriebssystemen eine Beschränkung von 255 Zeichen.

2 Kostenlos downloadbar auf http://www.7-zip.de/ (Zugriff am 03.03.2015). Kontaktieren Sie bitte Ihren Informatik Support.

 3 Kostenlos downloadbar auf http://www.kekaosx.com/de/ (Zugriff am 03.03.2015). Kontaktieren Sie bitte Ihren Informatik Support.

Bsp. für MT:

   

...

Image Removed 

 

ETH Zürich                                               ETH-Bibliothek                                        Fachstelle Digitaler Datenerhalt

data-archive@library.ethz.ch  www.library.ethz.ch/Digitaler-Datenerhalt

 

 (indem sie im Tool 7-Zip das Archivformat “zip” auswählen).

Dazu Files und Ordner selektieren, mit Rechts-Click «7-Zip» auswählen. Mit der Selektion von «Zu einem Archiv hinzufügen …» gelangen sie zum Dialog im Bild unten. Zuoberst im weissen Feld können Sie den Namen des Archivfiles eingeben. Benutzen Sie für das Archivformat die Option «zip» und für die Kompressionsstärke die Option «Speichern».

Image Added

Macintosh

In einer Mac-Umgebung sollte das Tar-Format gewählt werden.

Tar Container können entweder mit dem Befehl „tar“ auf der Kommandozeile (tar -cvf <archive_name.tar> <folder_to_tar>) oder mit dem Programm Keka erzeugt werden. Letztere Methode besteht aus folgenden Schritten: Starten Sie das Programms Keka, unter «Preferences» selektieren Sie «Compression». Dort wählen Sie das Default Format «TAR» (wie im Bild unten). Danach ziehen Sie den zu verpackenden Ordner auf den Keka-Icon. Sie können nun den Namen des Archivfiles angeben um es von Keka erzeugen zu lassen. Sie sollten zusätzlich die option "Exclude Mac resource forks (e.g. .DS_Store)" auswählen. Damit verhindern sie, das macOS-spezifische, versteckte Dateien in ihrem Container gepackt werden. 

Image Added