La règle et le compas

9 Mars 2018

Il faut être lucide, la répartition des images FITS par date ne marche. Il y a trop de cas particuliers.

Quant à une répartition arbitraire par répertoire d'une taille plus ou moins imposée, elle conduit à une organisation difficilement lisible, et s'avère délicate à mettre en œuvre. Il convient donc de chercher un autre angle d'attaque.

Après tout, nos grands anciens ont bien réussi à organiser les fichiers de l'expérience sous la forme d'archives Tar de tailles raisonnables. Alors pourquoi ne pas s'appuyer sur cet acquis... ? Et il serait temps d'élucider ce petit mystère: qu'elle est la signification des différents de noms des fichiers Tar du HPSS ?

Pour l'essentiel, il semble y avoir 3 formes de noms pour les archives des principaux programmes scientifiques :

En étudiant le contenu de ces 3 exemples, il apparait :

En consultant la base de données, il ressort qu'il existe 727 couples dont le nombre d'images complètes réduites est inférieur à 1.000, soit une taille maximum d'archive non compressée de 8 GB.

Et si on se restreint aux 11 "grands" programmes, ils ne sont plus que 60.

Curieusement, il n'y a que 49 archives Tar regroupant les images d'un seul champ d'un programme...

Si on étudie à un regroupement objet, champ, caméra, on trouve 148 triplets à moins de 1.000 images. Le gain est donc modeste vis-à-vis de l'accroissement de la complexité.

Et si on procède à un regroupement objet, champ, caméra, ccd, soit la deuxième forme d'archives Fits, il n'y a pas de quadruplets au-delà de 1.000 !

Nous avons donc là une solution pour l'organisation des images Fits dans iRods :

1 placer les images des archives de type 1 dans un sous-répertoire ayant pour nom le code du programme suivi du numéro du champ, cad le nom de l'archive sans le suffixe _fits.tar;

2 extraire les images des archives de type 2 dans des sous-répertoires d'un répertoire ayant le code du programme et le numéro du champ.

Soit pour l'exemple du Centre galactique:

eros2/
    fits/
        cg/
            cg001/
                cg001xxxxx.fits
                . . .
            cg002/
                cg00200/
                    cg0020xxx0xxxxxx.fits
                cg00201/
                cg00202/
                . . .
                cg00210/
                cg00211/

Cette solution présente un double intérêt: celui de la simplicité, et le fait d'exister, ce qui évitera une réorganisation inutile. Par ailleurs, il est facile d'automatiser le processus de migration.

Une dernière remarque: les deux archives cg002xx_fits contiennent des images quart de CCD de type 'c' et 'x' en date du 31 Janvier 1996 - alors que les premières images n'apparaissent qu'à partir du 22 Juin ??? D'ailleurs, 80 % des images 'c' ou 'x' sont callées sur cette date.

Mais l'archive cg001_fits ne contient aucune de ces images.