La règle et le compas
9 Mars 2018
Il faut être lucide, la répartition des images FITS par date ne marche. Il y a trop de cas particuliers.
Quant à une répartition arbitraire par répertoire d'une taille plus ou moins imposée, elle conduit à une organisation difficilement lisible, et s'avère délicate à mettre en œuvre. Il convient donc de chercher un autre angle d'attaque.
Après tout, nos grands anciens ont bien réussi à organiser les fichiers de l'expérience sous la forme d'archives Tar de tailles raisonnables. Alors pourquoi ne pas s'appuyer sur cet acquis... ? Et il serait temps d'élucider ce petit mystère: qu'elle est la signification des différents de noms des fichiers Tar du HPSS ?
Pour l'essentiel, il semble y avoir 3 formes de noms pour les archives des principaux programmes scientifiques :
-
cg001_fits.tar: le code du programme suivi d'un numéro de 3 chiffres et du suffixe_fits.tar; -
cg00200_fits.tar: le code du programme puis 5 chiffres et le même suffixe; -
cg002-009_c6a3150_fits.tar: le code du programme suivi du couple de deux nombres de 3 chiffres puis un ensemble de chiffres et de lettres et enfin le suffixe usuel.
En étudiant le contenu de ces 3 exemples, il apparait :
-
que la première archive contient toutes les images du programme CG pour le champ 001;
-
que la deuxième archive contient toutes les images du programme CG pour le champ 002, mais uniquement pour la caméra 0 et le CCD 0;
- dans
cg00201_fits.tar, on trouve les images de la caméra 0 et du CCD 1: on a donc notre pierre de Rosette pour interpréter les noms des archives Fits de la deuxième forme: code champ caméra ccd...
- dans
-
quant à la troisième archive, elle contient les quarts d'images k, l, m et n pour les champs 2 à 9 pour la nuit du 31 Janvier 1996 pour un traitement 'c';
-
une seconde archive de même nature,
cg002-009_x6a3150_fits.list, contient quant à elle des quarts d'images de traitement 'x'. -
soit: code champ-champ type date ordre
-
En consultant la base de données, il ressort qu'il existe 727 couples
Et si on se restreint aux 11 "grands" programmes, ils ne sont plus que 60.
Curieusement, il n'y a que 49 archives Tar regroupant les images d'un seul champ d'un programme...
Si on étudie à un regroupement objet, champ, caméra, on trouve 148 triplets à moins de 1.000 images. Le gain est donc modeste vis-à-vis de l'accroissement de la complexité.
Et si on procède à un regroupement objet, champ, caméra, ccd, soit la deuxième forme d'archives Fits, il n'y a pas de quadruplets au-delà de 1.000 !
Nous avons donc là une solution pour l'organisation des images Fits dans iRods :
1 placer les images des archives de type 1 dans un sous-répertoire
ayant pour nom le code du programme suivi du numéro du champ,
cad le nom de l'archive sans le suffixe _fits.tar;
2 extraire les images des archives de type 2 dans des sous-répertoires d'un répertoire ayant le code du programme et le numéro du champ.
Soit pour l'exemple du Centre galactique:
eros2/
fits/
cg/
cg001/
cg001xxxxx.fits
. . .
cg002/
cg00200/
cg0020xxx0xxxxxx.fits
cg00201/
cg00202/
. . .
cg00210/
cg00211/
Cette solution présente un double intérêt: celui de la simplicité, et le fait d'exister, ce qui évitera une réorganisation inutile. Par ailleurs, il est facile d'automatiser le processus de migration.
Une dernière remarque: les deux archives cg002xx_fits contiennent
des images quart de CCD de type 'c' et 'x' en date du 31 Janvier 1996
- alors que les premières images n'apparaissent qu'à partir du 22 Juin ???
D'ailleurs, 80 % des images 'c' ou 'x' sont callées sur cette date.
Mais l'archive cg001_fits ne contient aucune de ces images.