Skip to content

Latest commit

 

History

History
206 lines (132 loc) · 14.4 KB

ressources.md

File metadata and controls

206 lines (132 loc) · 14.4 KB

Ressources supplémentaires

Des ressources utiles, notamment :

Matériel de lecture

Préservation numérique 101

Sur la description archivistique

  • Callahan, Maureen. "The Value of Archival Description Considered", Chaos->Order, 2014 : Pas strictement une lecture de préservation numérique, mais de l’information utile qui devrait être lue et revisiter pour quiconque arrange et décrit des archives.

Sur le code/logiciel

  • Ford, Paul. "What is code ?", Bloomberg Businessweek, 11 juin 2015 : Probablement le meilleur article jamais écrit (et le plus divertissant) sur la nature des codes/logiciels.

Identification et information des supports de stockage numérique

Identification et informations sur le format de fichier

Outils de préservation numérique

Ressources en matière de commandes

  • Script Ahoy : "Notre ressource communautaire est destinée à fournir des liens utiles et des codes de script spécifiquement tirés d'exemples réels dans les archives et les bibliothèques".
  • Cours accéléré sur la ligne de commande : Learn Python the Hard Way

Commandes utiles

  • Conversion par lots de fichiers dans un répertoire et des sous-répertoires en utilisant LibreOffice.

    cd topDirectory
    for f in $(find . -type f -name "*EXT"); do libreoffice --convert-to doc $f --outdir $(dirname $f); done
    

    Remplacez "EXT" par l'extension de fichier des fichiers originaux ; notez que cette opération est sensible aux espacements dans le nommage des fichiers Remplacez "doc" par l'extension de fichier vers laquelle les fichiers doivent être convertis. Voir "Formats de fichiers supportés" pour plus d'informations.

  • Décompressez de façon récursive les fichiers dans un nouveau dossier avec le titre du fichier zip à leur place actuelle dans le répertoire, puis supprimez le fichier zip original lorsque cela est fait :

    cd topDirectory
    for F in $(find . -type f -name *.zip); do unzip "$F" -d "${F%.*}/" && rm "$F"; done
    

    (Source)

    Pour le même résultat avec les fichiers .rar, utilisez :

    cd topDirectory
    for F in $(find . -name "*.rar"); do unrar x "$F" "${F%.*}/" && rm "$F"; done
    

    Notez que la commande find est sensible aux espacements dans le nommage des fichiers. Elle devra donc être modifiée en fonction des noms attribués aux fichiers zip ou rar. Les deux formats ne doivent pas comporter d'espaces dans leur nom de fichier, sinon la commande échouera. Si nécessaire, utilisez la commande Detox avant d'extraire les fichiers.

  • Identifiez les répertoires en double dans une collection :

    Essayez d'utiliser Direct-Dedupe et suivez ensuite les instructions ci-dessous. Il a été construit à partir des commandes suivantes :

    Exécutez les scripts suivants dans la ligne de commande individuellement. (Remplacez topDirectory par le chemin d'accès au fichier pour le répertoire de plus haut niveau).

    cd topDirectory/
    find . -type d >> /home/bcadmin/Desktop/directories.csv
    for D in $(find . -type d); do du -sh $D >> /home/bcadmin/Desktop/filesize.csv; done
    for D in $(find . -type d); do find $D -type f -exec md5sum {} + | awk '{print $1}' | sort | md5sum >> /home/bcadmin/Desktop/checksums.csv; done
    

    Cette commande finale peut prendre un certain temps en fonction de la taille de la collection. Ensemble, ces commandes permettent de créer trois feuilles de calcul CSV Excel sur le bureau Bitcurator, contenant respectivement la liste des répertoires, leur taille lisible par l'utilisateur et leurs sommes de contrôle. Déplacez les colonnes dans une seule feuille de calcul Excel, en gardant à l'esprit que les colonnes nécessitent un léger nettoyage des données afin de les aligner. Il peut être plus facile de faire du TOPDIRECTORY un sous-répertoire et de combiner toutes les feuilles de calcul Excel à la fin si vous avez plus que quelques milliers de répertoires au total.

    Une fois que vous vous êtes assuré qu'ils correspondent, créez des en-têtes pour chacune des colonnes et insérez des filtres (Data/Filters ou Donnees/Filtrer). Mettez en évidence la colonne de la somme de contrôle et faites Accueil/Mise en forme conditionnelle/Règles de mise en surbrillance des cellules/Valeurs en double. Cela modifiera la couleur de tous les doublons de sommes de contrôle, vous permettant ainsi d'identifier et de supprimer les répertoires en double.

  • Identifiez tous les fichiers avec des horodatages problématiques dans un répertoire et modifiez les horodatages :

    cd topDirectory
    find . -type f -newermt "YYYY-MM-DD" ! -newermt "YYYY-MM-DD" -exec touch -t "YYYYMMDDHHMM" {} +
    

    (Source 1 et Source 2)

    Dans ce cas, le script recherchera des fichiers (-type f) dans une certaine plage de dates (-newermt "YYYY-MM-DD" ! -newermt "YYYY-MM-DD"), puis il modifiera ces dates pour les remplacer par celles spécifiées par "YYYYMMDDHHMM".

    Avant décembre 2018, il a été déterminé que si la modification était requise, suite à un problème d'interprétation de l'horodatage par le système de temps UNIX, la nouvelle date devrait être "197001010000", ce qui correspond au temps 0 dans le système de temps UNIX. Cette stratégie a été réévaluée et la nouvelle date devrait être dérivée du contenu de l'archive en cours de traitement. Confirmer la date de remplacement avec Digital Archivist.

  • L'utilitaire Detox nettoie les noms de fichiers et les répertoires en supprimant les espaces et en nettoyant les caractères Latin-1 (ISO 8859-1) encodés en ASCII 8 bits, les caractères Unicode encodés en UTF-8 et les caractères d'échappement CGI.

    Pour faire un test (c'est-à-dire voir les changements de noms de fichiers proposés sans effectuer les changements) :

    detox -rn topDirectory
    

    Pour effectuer les changements :

    detox -r topDirectory
    
  • Lister et supprimer les fichiers et répertoires vides. Pour lister tous les fichiers et répertoires vides :

    cd [topDirectory]
    find . -empty
    

    Pour supprimer les fichiers vides : find . -type f -empty -delete

    Pour supprimer les répertoires vides : find . -type d -empty -delete

  • Pour trouver et supprimer les fichiers cachés

    cd filepath/to/directory find -type f -name '.*' (#pour trouver tous les fichiers qui commence par un .)
    cd filepath/to/directory find -type f -name '.*' -delete (#pour supprimer tous les fichier qui commence par un .)
    
    find -type f -name "*.db" -delete
    
    find -type f -name "~*" -delete
    
    find -type f -name "*.DS_Store" -delete
    
  • Imprimer les discordances de checksum entre le fichier checksum.md5 et le répertoire d'objets du terminal

    cd /path/to/metadata/directory 
    md5deep -rlX checksum.md5 ../objects
    

    (le drapeau -X affiche le hachage et le nom de fichier pour chaque fichier du répertoire des objets qui ne correspond pas à la liste des hachages connus dans le fichier checksum.md5)

  • Supprimer en lot les virgules des noms de fichiers et les remplacer par des traits de soulignement

    cd /path/to/directory
    for f in $(find . -name "*,*"); do rename -v 's/,/_/' $f; done
    

    Notez que cela ne changera que la première virgule de chaque nom de fichier. Par exemple, si un nom de fichier contient cinq virgules, vous devrez exécuter la commande cinq fois pour remplacer chaque virgule.

  • Synchroniser les dossiers Ce script copie ou synchronise un dossier source avec un dossier de destination. Il est particulièrement utile si vous avez une copie de vos fichiers sur un RAID et sur Processing, et souhaitez en mettre une à jour pour refléter le traitement sans avoir à faire un copier-coller de l'ensemble. Pour les archives de grande amplitude, ce processus accélère le traitement car il permet de conserver tous les fichiers qui restent tel quel. Le script crée une copie du dossier source, nommé de la même façon, dans le répertoire de destination. Si le titre de ce dossier existe déjà, il synchronisera les fichiers. -qam est destiné à la copie silencieuse (c'est-à-dire aux messages d'erreur uniquement), à la copie d'archives et au découpage des répertoires vides. --delete supprime tous les fichiers à la destination qui n'existent pas à la source.

    Notez que ce script écrase, supprime et utilise sudo, ce qui signifie qu'il est très puissant. Il n'est pas recommandé de l'utiliser sans avoir une certaine expérience de rsync.

    sudo rsync -qam --delete "/PATH/TO/SIPs/" "/PATH/TO/PARENT_OF_SIPs/"
    
  • Déverrouiller des dossiers

    Cette commande déverrouille le dossier en utilisant "sudo". Souvent, lors de la création d'une image disque sur le Bitcurator, un fichier vérouillé peut être créé. Si vous avez besoin de déverrouiller un dossier, remplacez le * par le chemin du dossier.

    sudo chmod 777 *
    

    ou utilisez-la de manière récursive pour déverrouiller tous les sous-dossiers.

    sudo chmod -R 777 *
    
  • Analyse antivirus

    Cette commande utilise le logiciel clamAV pour lancer l'analyse antivirus sur un dossier ou sur des fichiers.

    clamscan -r /path/to/staging --max-filesize=Xm --max-scansize=Ym > collection.log
    

    X correspond à la plus grande taille de fichier (en mégaoctets) que vous souhaitez scanner, et Y correspond au plus grand nombre de mégaoctets que vous souhaitez extraire d'un seul fichier compressé.

  • Pour ajouter un préfixe et un suffixe aux fichiers (répertoires)

    ls | xargs -I {} mv {} PRE_{}
    ls | xargs -I {} mv {} {}_SUF
    

Préservation de la conception assistée par ordinateur

Ressources générales