Structure des données Eros 2
Les données Eros 2 vont des images FITS réalisées au télescope Marly de La Silla, le site de l'ESO, au Chili, aux courbes de lumière regroupant les principaux paramètres des étoiles suivies par l'expérience.
Les fichiers sont conservés dans le système de stockage distribué Irods du Centre de calcul et sont indexés dans la base de données ErosDB, basée sur le système Oracle, également installé au Centre.
L'accès à la base de données pour trouver les fichiers et leur transfert sur le poste de travail sont assurés par des outils de l'environnement. L'organisation des fichiers dans Irods est décrite à la page Organisation des fichiers Eros 2.
Une partie de ces fichiers sont des fichiers binaires, l'autre est constitué de fichiers texte. La structure de ces différents types de fichiers, lorsqu'elle est connue, est décrite dans cette page.
Courbes de lumière
Les courbes de lumière sont des fichiers ASCII regroupant les principaux paramètres d'analyse d'une même étoile pour les deux couleurs et pour l'ensemble de la campagne d'observation. Il y a donc 1 seul fichier par étoile.
Les courbes de lumière sont nommées à partir du code du programme scientifique, du champ et du CCD et quart de CCD où l'étoile a été détectée et du numéro de détection de cette étoile.
L'exemple suivant montre le début de la courbe de lumière lm0101k72, correspondant à l'étoile 72 du quart k du CCD 1 du champ 010 du LMC (code lm):
# star: erosid MagR ErrMR XR YR MagB ErrMB XB YB
# lm0101k72 19.791 0.552 1220.75 1576.93 20.551 0.596 1166.87 1609.60
#
# date MagR ErMagR MagB ErMagB
296.92857 20.891 2.087 99.999 9.999
303.90878 21.487 2.848 99.999 9.999
315.90198 19.308 1.411 21.300 4.590
324.83806 19.783 1.110 99.999 9.999
326.84836 19.709 0.631 20.078 0.381
354.87292 19.326 0.357 99.999 9.999
Les cinq colonnes correspondent:
- à la date d'observation, sous la forme d'un jour julien héliocentrique dont l'origine a été décalé de 2 millions 450 milles jours par rapport à l'origine des jours juliens standards de manière à manipuler des nombres de taille plus raisonnable;
- à la magnitude rouge et à l'estimation de l'erreur sur sa mesure;
- à la magnitude bleue et à l'estimation de l'erreur sur sa mesure.
Les données sont précédées d'un entête de deux lignes de commentaires décrivant les paramètres généraux de l'étoile: ses magnitudes en rouge et en bleue et les erreurs sur leur mesure, et sa position sur les images rouges et bleues.
Ces mesures sont issues des fichiers de suivi réalisés dans le cadre de la production P5. Plusieurs autres productions ont été réalisées, mais aucune autre n'a conduit à la génération de courbes de lumière.
Les courbes de lumière sont conservées dans le système de stockage distribué Irods du Centre de calcul. L'organisation des fichiers est décrite à la page dédiée à l'organisation des fichiers Eros 2 au chapitre consacré aux courbes de lumière.
Catalogues ASCII
Les catalogues ASCII regroupent les descriptions des étoiles d'un quart de CCD. Chacune des étoiles répertoriées dans le catalogue correspond à un fichier courbe de lumière.
L'exemple suivant montre le début d'un catalogue ASCII. Il correspond au quart de CCD lm0571m, soit le quart m du CCD 1 du champ 057 du programme LMC.
# erosid Ra Dec MagR ErrMR XR YR MagB ErrMB XB YB VarFlag
lm0571m76 81.051840 -70.462000 20.241 0.552 340.09 1644.03 20.860 0.639 286.31 1673.07 0
lm0571m77 80.971760 -70.463080 20.802 1.080 569.30 1639.87 21.663 1.439 515.50 1669.28 0
lm0571m80 80.945580 -70.462960 19.426 0.335 644.12 1642.60 21.406 2.800 590.30 1672.13 0
lm0571m91 80.641480 -70.467100 20.663 0.785 1514.37 1623.41 21.562 1.466 1460.50 1654.35 0
lm0571m94 80.750080 -70.466530 20.111 0.651 1203.80 1622.94 21.737 1.815 1149.96 1653.37 0
lm0571m95 80.787320 -70.466890 19.747 0.294 1097.43 1617.91 20.955 0.528 1043.61 1648.18 0
lm0571m101 80.775780 -70.468390 20.813 1.195 1130.70 1605.61 21.696 1.408 1076.89 1635.94 0
lm0571m102 80.776690 -70.468210 21.039 1.282 1128.08 1607.14 20.857 0.804 1074.27 1637.47 0
lm0571m103 80.750810 -70.468820 20.706 0.755 1202.19 1603.24 20.758 0.611 1148.38 1633.69 0
Le fichier reprend les informations apparaissant en tête des courbes de lumière en ajoutant la position des étoiles sous la forme d'une ascension droite et d'une déclinaison.
Les catalogues sont conservés dans le système de stockage distribué Irods du Centre de calcul dans l'arborescence des courbes de lumière.
Descripteurs des champs
Les descripteurs des champs et des programmes scientifiques présentent les zones du ciel correspond à chaque champ d'un programme scientifique et à chaque quart de CCD d'un champ sous la forme de couples d'ascension droite et de déclinaison maximum et minimum.
L'exemple suivant montre le début du fichier lm.field décrivant les différents champs du programme lm, c'est-à-dire le LMC.
# id ra min ra max dec min dec max
lm001 79.742860 81.797560 -70.457980 -69.063590
lm002 81.352620 83.774220 -70.456340 -69.061660
lm003 83.720860 85.770200 -70.452490 -69.061310
lm004 85.710780 87.763820 -70.455620 -69.061170
lm005 87.704740 89.754720 -70.458320 -69.061630
lm006 89.695630 91.751980 -70.455850 -69.060880
lm007 91.683290 93.738580 -70.457420 -69.060510
lm008 93.671520 95.729880 -70.457550 -69.063310
lm009 77.752980 79.795800 -70.457480 -69.061790
Cet autre exemple montre le début du fichier lm010.field décrivant les quarts de CCD du champ 010 du programme LMC.
# id ra min ra max dec min dec max
lm0100l 75.786270 76.256410 -69.400450 -69.229350
lm0100m 76.255940 76.734580 -69.229000 -69.063440
lm0100n 76.256340 76.739290 -69.400340 -69.228320
lm0101k 76.763270 77.244760 -69.228140 -69.068890
lm0101l 76.767110 77.254320 -69.399070 -69.226210
lm0101m 77.237770 77.723820 -69.225670 -69.064100
lm0101n 77.246590 77.738510 -69.396720 -69.222930
lm0102k 75.868060 76.258050 -69.580860 -69.418440
lm0102l 75.865760 76.259140 -69.752320 -69.581010
Tout comme les courbes de lumière et les catalogues, les descripteurs de champ sont conservés dans le système de stockage distribué Irods du Centre au côté des courbes de lumière.
Fichiers de suivi
Les fichiers de suivis conservent les mesures des analyses réalisées sur les images d'un quart de CCD pour une seule couleur.
Du fait du nombre d'images à analyser et du nombre important d'étoiles détectées, les analyses étaient réalisées sur un sous-ensemble de l'image, nommé quart de CCD. En outre, les images étaient traitées par petits lots, typiquement de 100 à 150 images, afin de réduire les mouvements de fichiers entre le robot de stockage et les stations de calcul. Chaque lot était associé à un bloc dont le numéro apparait dans le nom du fichier. Ce découpage en bloc permettait en outre de traiter facilement les images au fur à mesure de leur arrivée au Centre. Un point important à souligner est qu'une image pouvait être analysée plusieurs fois, par exemple pour récupérer une erreur décelée durant les analyses de physique.
Dans l'exemple présenté ci-dessous, l'entête du suivi fait état de plus de 32 milles étoiles analysées pour 134 mesures, ce qui dans la terminologie des suivis Eros 2 représente 134 images traitées. La taille du fichier présentée est de 134 Mo (indiquée dans l'entête sous l'appellation total size). Soit 1 Mo par image traitée. Mais il convient de rappeler que chaque image, de 8 Mo, est traitée 4 fois, pour chacun des quarts de CCD déclarés. Soit volume global de 4 Mo de mesures par image. Ou encore un facteur de réduction de seulement 2 entre les images et les analyses.
Les fichiers de suivi étant des fichiers binaires, il est difficile d'en montrer un extrait. Le programme DumpSuivi permet toutefois d'explorer le contenu du fichier et d'en présenter un résumé sous la forme d'une suite de tables.
L'exemple suivant montre l'entête du suivi lm01000krp501.sv contenant les mesures réalisées sur les images du quart de CCD k du CCD 0 pour la caméra 0, filtre r, c'est-à-dire rouge, du champ 010 du programme LMC (code lm). Le suivi correspond au bloc 1, réalisé dans le cadre de la production P5.
% DumpSuivi lm01000krp501.sv
#Suivi Parameters
Name Programme Champ Camera Ccd Filtre Production Bloc Type Nametype Byteorder
------------- --------- ----- ------ --- ------ ---------- ---- ------ -------- -------------
lm01000krp501 lm 010 0 0 r p5 1 EROS_2 EROS_2 LITTLE_ENDIAN
#Header
Total Size Header Size Nb Stars Nb Mesures Mesures/Block Type Cor Marker SwapFlag
---------- ----------- -------- ---------- ------------- ---- ---------- --------
139662445 217 32768 134 10 10 134 0xFFFF
Rappel: le nom d'un élément Eros 2 peut être décodé par l'application DecodeName, soit ici:
% DecodeName lm01000krp501
Suivis
======
Nom Objet Champ Camera Ccd Sousimage Filtre Traitement Version Bloc
------------- ----- ----- ------ --- --------- ------ ---------- ------- ----
lm01000krp501 lm 010 0 0 k r p 5 1
La structure interne des fichiers de suivi est assez mal connue. Toutefois, un effort de décodage a été fait dans le cadre du projet ErosDb III. Les résultats sont présentés dans une page exclusivement dédiée à leur format interne.
Un utilitaire, encore expérimental, de conversion vers le format Json existe (voir SuiviConvert).
Les suivis de la production P5, production considérée comme la production officielle Eros 2, sont conservés dans le système de stockage distribué Irods du Centre de calcul. Leur organisation est décrite au chapitre qui leur est consacré à la page sur l'organisation des fichiers Eros 2.d
Fichiers des références
Les fichiers des références, ou catalogues binaires d'étoiles, contiennent la description des étoiles détectées sur un quart de CCD, pour une couleur, à partir d'une série de bonnes images. La première des images est nommée image de référence. Il s'agit typiquement d'une image construite explicitement à cet usage par des techniques de composition. Ces images sont conservées dans le système de stockage Irods et sont répertoriées dans la base de données comme des images c ou w.
Il y a donc un fichier de références par série de suivi et par production.
Mais à l'inverse des suivis, le format interne des références reste encore inconnu à ce jour.
Les références de la production P5, production considérée comme la production officielle Eros 2, sont conservées dans le système de stockage distribué Irods du Centre de calcul. Leur organisation est décrite au chapitre qui leur est consacré à la page sur l'organisation des fichiers Eros 2.
Images FITS
Les images Eros 2 proviennent de la double caméra CCD installée sur le télescope Marly de l'expérience. Une fois une observation terminée, les images capturées par chaque CCD étaient sauvées et nommées en fonction du programme scientifique étudié, du champ observé, et de la caméra, du CCD de cette caméra et du filtre utilisé. La date de la nuit d'observation, sous une forme codée, et le numéro de la prise de vue étaient ajoutés à ce nom. Cette syntaxe est décrite au chapitre consacré aux noms des images.
Les images issues des CCD, dite images brutes, étaient alors calibrées directement sur le site à partir d'images du fond du ciel et de la coupole ce qui conduisait à la création d'images dites réduites. Les images brutes et les images de calibration (nommées génériquement flats) étaient expédiées à Saclay alors que les images réduites allaient à Lyon pour y être analysées.
Les images réduites conservées à Lyon ont été migrées vers le système de stockage distribué Irods du Centre où elles sont accessibles (voir l'organisation des images). Leur emplacement et leurs principales caractéristiques sont enregistrés dans la base de données ErosDB, installée au Centre. Cette base est consultable grâce à différentes applications du projet ErosDb (voir la page sur les outils Eros 2).
La situation des images brutes, expédiées à Saclay, semble plus préoccupante...
Format FITS
Le format FITS est le standard de l'astronomie pour la conservation et l'échange de données. Ce format n'est pas seulement dédié aux images mais peut supporter tout type de données, à priori pour des structures tabulaires.
L'un aspect important du format FITS est qu'il supporte la définition de métadonnées, permettant de décrire très complétement le contenu du fichier. Cette description se fait sous la forme de clés FITS constituées d'un mot-clé et d'une valeur ASCII. Ces clés FITS apparaissent en tête du fichier. Beaucoup d'entre elles sont normalisées, mais il est possible d'étendre les clés utilisées pour des besoins spécifiques.
Les promoteurs du format FITS recommandent de documenter les clés ajoutées - ce qui n'est malheureusement pas toujours le cas des images Eros.
Une tentative pour identifier toutes les clés apparaissant dans les images Eros est en cours, dans l'espoir de pouvoir documenter les clés non standards.
Une affaire à suivre...
L'entête FITS
Les clés FITS apparaissant dans l'entête sont des zones de taille fixe de 80 caractères. Comme la taille de la clé est fixée d'avance, nul besoin d'un terminateur de ligne, ce qui complique beaucoup leur présentation avec les outils usuels du shell. Une astuce consiste à redéfinir la largeur du terminal à 80 colonnes ce qui permet d'utiliser less ou more, par exemple.
L'application FitsHeader lit l'entête FITS d'une image et présente les clés sous la forme de lignes de texte au standard UNIX, c'est-à-dire terminées par un retour-chariot (\n).
Cette application peut aussi accéder aux entêtes des images Eros 2 en consultant la base de données. Ces entêtes ont été extraits et sont conservées comme des fichiers séparés dans Irods et sont enregistrés sous forme comprimée dans la base de données où FitsHeader peut les retrouver.