Structure des données Eros 2

Les données Eros 2 vont des images FITS réalisées au télescope Marly de La Silla, le site de l'ESO, au Chili, aux courbes de lumière regroupant les principaux paramètres des étoiles suivies par l'expérience.

Les fichiers sont conservés dans le système de stockage distribué Irods du Centre de calcul et sont indexés dans la base de données ErosDB, basée sur le système Oracle, également installé au Centre.

L'accès à la base de données pour trouver les fichiers et leur transfert sur le poste de travail sont assurés par des outils de l'environnement. L'organisation des fichiers dans Irods est décrite à la page Organisation des fichiers Eros 2.

Une partie de ces fichiers sont des fichiers binaires, l'autre est constitué de fichiers texte. La structure de ces différents types de fichiers, lorsqu'elle est connue, est décrite dans cette page.

Courbes de lumière

Les courbes de lumière sont des fichiers ASCII regroupant les principaux paramètres d'analyse d'une même étoile pour les deux couleurs et pour l'ensemble de la campagne d'observation. Il y a donc 1 seul fichier par étoile.

Les courbes de lumière sont nommées à partir du code du programme scientifique, du champ et du CCD et quart de CCD où l'étoile a été détectée et du numéro de détection de cette étoile.

L'exemple suivant montre le début de la courbe de lumière lm0101k72, correspondant à l'étoile 72 du quart k du CCD 1 du champ 010 du LMC (code lm):

# star:  erosid      MagR    ErrMR   XR      YR     MagB    ErrMB   XB      YB
#        lm0101k72   19.791  0.552 1220.75 1576.93  20.551  0.596 1166.87 1609.60
#
#   date      MagR    ErMagR MagB    ErMagB
   296.92857  20.891  2.087  99.999  9.999
   303.90878  21.487  2.848  99.999  9.999
   315.90198  19.308  1.411  21.300  4.590
   324.83806  19.783  1.110  99.999  9.999
   326.84836  19.709  0.631  20.078  0.381
   354.87292  19.326  0.357  99.999  9.999

Les cinq colonnes correspondent:

  • à la date d'observation, sous la forme d'un jour julien héliocentrique dont l'origine a été décalé de 2 millions 450 milles jours par rapport à l'origine des jours juliens standards de manière à manipuler des nombres de taille plus raisonnable;
  • à la magnitude rouge et à l'estimation de l'erreur sur sa mesure;
  • à la magnitude bleue et à l'estimation de l'erreur sur sa mesure.

Les données sont précédées d'un entête de deux lignes de commentaires décrivant les paramètres généraux de l'étoile: ses magnitudes en rouge et en bleue et les erreurs sur leur mesure, et sa position sur les images rouges et bleues.

Ces mesures sont issues des fichiers de suivi réalisés dans le cadre de la production P5. Plusieurs autres productions ont été réalisées, mais aucune autre n'a conduit à la génération de courbes de lumière.

Les courbes de lumière sont conservées dans le système de stockage distribué Irods du Centre de calcul. L'organisation des fichiers est décrite à la page dédiée à l'organisation des fichiers Eros 2 au chapitre consacré aux courbes de lumière.

Catalogues ASCII

Les catalogues ASCII regroupent les descriptions des étoiles d'un quart de CCD. Chacune des étoiles répertoriées dans le catalogue correspond à un fichier courbe de lumière.

L'exemple suivant montre le début d'un catalogue ASCII. Il correspond au quart de CCD lm0571m, soit le quart m du CCD 1 du champ 057 du programme LMC.

#  erosid   Ra         Dec      MagR    ErrMR   XR     YR      MagB    ErrMB   XB       YB    VarFlag
lm0571m76 81.051840 -70.462000  20.241  0.552  340.09 1644.03  20.860  0.639  286.31  1673.07 0
lm0571m77 80.971760 -70.463080  20.802  1.080  569.30 1639.87  21.663  1.439  515.50  1669.28 0
lm0571m80 80.945580 -70.462960  19.426  0.335  644.12 1642.60  21.406  2.800  590.30  1672.13 0
lm0571m91 80.641480 -70.467100  20.663  0.785 1514.37 1623.41  21.562  1.466 1460.50  1654.35 0
lm0571m94 80.750080 -70.466530  20.111  0.651 1203.80 1622.94  21.737  1.815 1149.96  1653.37 0
lm0571m95 80.787320 -70.466890  19.747  0.294 1097.43 1617.91  20.955  0.528 1043.61  1648.18 0
lm0571m101 80.775780 -70.468390  20.813  1.195 1130.70 1605.61  21.696  1.408 1076.89  1635.94 0
lm0571m102 80.776690 -70.468210  21.039  1.282 1128.08 1607.14  20.857  0.804 1074.27  1637.47 0
lm0571m103 80.750810 -70.468820  20.706  0.755 1202.19 1603.24  20.758  0.611 1148.38  1633.69 0

Le fichier reprend les informations apparaissant en tête des courbes de lumière en ajoutant la position des étoiles sous la forme d'une ascension droite et d'une déclinaison.

Les catalogues sont conservés dans le système de stockage distribué Irods du Centre de calcul dans l'arborescence des courbes de lumière.

Descripteurs des champs

Les descripteurs des champs et des programmes scientifiques présentent les zones du ciel correspond à chaque champ d'un programme scientifique et à chaque quart de CCD d'un champ sous la forme de couples d'ascension droite et de déclinaison maximum et minimum.

L'exemple suivant montre le début du fichier lm.field décrivant les différents champs du programme lm, c'est-à-dire le LMC.

# id  ra min  ra max   dec min   dec max
lm001 79.742860 81.797560 -70.457980 -69.063590
lm002 81.352620 83.774220 -70.456340 -69.061660
lm003 83.720860 85.770200 -70.452490 -69.061310
lm004 85.710780 87.763820 -70.455620 -69.061170
lm005 87.704740 89.754720 -70.458320 -69.061630
lm006 89.695630 91.751980 -70.455850 -69.060880
lm007 91.683290 93.738580 -70.457420 -69.060510
lm008 93.671520 95.729880 -70.457550 -69.063310
lm009 77.752980 79.795800 -70.457480 -69.061790

Cet autre exemple montre le début du fichier lm010.field décrivant les quarts de CCD du champ 010 du programme LMC.

# id     ra min  ra max   dec min   dec max
lm0100l 75.786270 76.256410 -69.400450 -69.229350
lm0100m 76.255940 76.734580 -69.229000 -69.063440
lm0100n 76.256340 76.739290 -69.400340 -69.228320
lm0101k 76.763270 77.244760 -69.228140 -69.068890
lm0101l 76.767110 77.254320 -69.399070 -69.226210
lm0101m 77.237770 77.723820 -69.225670 -69.064100
lm0101n 77.246590 77.738510 -69.396720 -69.222930
lm0102k 75.868060 76.258050 -69.580860 -69.418440
lm0102l 75.865760 76.259140 -69.752320 -69.581010

Tout comme les courbes de lumière et les catalogues, les descripteurs de champ sont conservés dans le système de stockage distribué Irods du Centre au côté des courbes de lumière.

Fichiers de suivi

Les fichiers de suivis conservent les mesures des analyses réalisées sur les images d'un quart de CCD pour une seule couleur.

Du fait du nombre d'images à analyser et du nombre important d'étoiles détectées, les analyses étaient réalisées sur un sous-ensemble de l'image, nommé quart de CCD. En outre, les images étaient traitées par petits lots, typiquement de 100 à 150 images, afin de réduire les mouvements de fichiers entre le robot de stockage et les stations de calcul. Chaque lot était associé à un bloc dont le numéro apparait dans le nom du fichier. Ce découpage en bloc permettait en outre de traiter facilement les images au fur à mesure de leur arrivée au Centre. Un point important à souligner est qu'une image pouvait être analysée plusieurs fois, par exemple pour récupérer une erreur décelée durant les analyses de physique.

Dans l'exemple présenté ci-dessous, l'entête du suivi fait état de plus de 32 milles étoiles analysées pour 134 mesures, ce qui dans la terminologie des suivis Eros 2 représente 134 images traitées. La taille du fichier présentée est de 134 Mo (indiquée dans l'entête sous l'appellation total size). Soit 1 Mo par image traitée. Mais il convient de rappeler que chaque image, de 8 Mo, est traitée 4 fois, pour chacun des quarts de CCD déclarés. Soit volume global de 4 Mo de mesures par image. Ou encore un facteur de réduction de seulement 2 entre les images et les analyses.

Les fichiers de suivi étant des fichiers binaires, il est difficile d'en montrer un extrait. Le programme DumpSuivi permet toutefois d'explorer le contenu du fichier et d'en présenter un résumé sous la forme d'une suite de tables.

L'exemple suivant montre l'entête du suivi lm01000krp501.sv contenant les mesures réalisées sur les images du quart de CCD k du CCD 0 pour la caméra 0, filtre r, c'est-à-dire rouge, du champ 010 du programme LMC (code lm). Le suivi correspond au bloc 1, réalisé dans le cadre de la production P5.

% DumpSuivi lm01000krp501.sv
#Suivi Parameters
Name          Programme Champ Camera Ccd Filtre Production Bloc Type   Nametype Byteorder
------------- --------- ----- ------ --- ------ ---------- ---- ------ -------- -------------
lm01000krp501 lm        010        0   0 r      p5            1 EROS_2 EROS_2   LITTLE_ENDIAN

#Header
Total Size Header Size Nb Stars Nb Mesures Mesures/Block Type Cor Marker SwapFlag
---------- ----------- -------- ---------- ------------- ---- ---------- --------
 139662445         217    32768        134            10   10        134   0xFFFF

Rappel: le nom d'un élément Eros 2 peut être décodé par l'application DecodeName, soit ici:

% DecodeName lm01000krp501
Suivis
======

Nom           Objet Champ Camera Ccd Sousimage Filtre Traitement Version Bloc
------------- ----- ----- ------ --- --------- ------ ---------- ------- ----
lm01000krp501 lm    010        0   0 k         r      p                5    1

La structure interne des fichiers de suivi est assez mal connue. Toutefois, un effort de décodage a été fait dans le cadre du projet ErosDb III. Les résultats sont présentés dans une page exclusivement dédiée à leur format interne.

Un utilitaire, encore expérimental, de conversion vers le format Json existe (voir SuiviConvert).

Les suivis de la production P5, production considérée comme la production officielle Eros 2, sont conservés dans le système de stockage distribué Irods du Centre de calcul. Leur organisation est décrite au chapitre qui leur est consacré à la page sur l'organisation des fichiers Eros 2.d

Fichiers des références

Les fichiers des références, ou catalogues binaires d'étoiles, contiennent la description des étoiles détectées sur un quart de CCD, pour une couleur, à partir d'une série de bonnes images. La première des images est nommée image de référence. Il s'agit typiquement d'une image construite explicitement à cet usage par des techniques de composition. Ces images sont conservées dans le système de stockage Irods et sont répertoriées dans la base de données comme des images c ou w.

Il y a donc un fichier de références par série de suivi et par production.

Mais à l'inverse des suivis, le format interne des références reste encore inconnu à ce jour.

Les références de la production P5, production considérée comme la production officielle Eros 2, sont conservées dans le système de stockage distribué Irods du Centre de calcul. Leur organisation est décrite au chapitre qui leur est consacré à la page sur l'organisation des fichiers Eros 2.

Images FITS

Les images Eros 2 proviennent de la double caméra CCD installée sur le télescope Marly de l'expérience. Une fois une observation terminée, les images capturées par chaque CCD étaient sauvées et nommées en fonction du programme scientifique étudié, du champ observé, et de la caméra, du CCD de cette caméra et du filtre utilisé. La date de la nuit d'observation, sous une forme codée, et le numéro de la prise de vue étaient ajoutés à ce nom. Cette syntaxe est décrite au chapitre consacré aux noms des images.

Les images issues des CCD, dite images brutes, étaient alors calibrées directement sur le site à partir d'images du fond du ciel et de la coupole ce qui conduisait à la création d'images dites réduites. Les images brutes et les images de calibration (nommées génériquement flats) étaient expédiées à Saclay alors que les images réduites allaient à Lyon pour y être analysées.

Les images réduites conservées à Lyon ont été migrées vers le système de stockage distribué Irods du Centre où elles sont accessibles (voir l'organisation des images). Leur emplacement et leurs principales caractéristiques sont enregistrés dans la base de données ErosDB, installée au Centre. Cette base est consultable grâce à différentes applications du projet ErosDb (voir la page sur les outils Eros 2).

La situation des images brutes, expédiées à Saclay, semble plus préoccupante...

Format FITS

Le format FITS est le standard de l'astronomie pour la conservation et l'échange de données. Ce format n'est pas seulement dédié aux images mais peut supporter tout type de données, à priori pour des structures tabulaires.

L'un aspect important du format FITS est qu'il supporte la définition de métadonnées, permettant de décrire très complétement le contenu du fichier. Cette description se fait sous la forme de clés FITS constituées d'un mot-clé et d'une valeur ASCII. Ces clés FITS apparaissent en tête du fichier. Beaucoup d'entre elles sont normalisées, mais il est possible d'étendre les clés utilisées pour des besoins spécifiques.

Les promoteurs du format FITS recommandent de documenter les clés ajoutées - ce qui n'est malheureusement pas toujours le cas des images Eros.

Une tentative pour identifier toutes les clés apparaissant dans les images Eros est en cours, dans l'espoir de pouvoir documenter les clés non standards.

Une affaire à suivre...

L'entête FITS

Les clés FITS apparaissant dans l'entête sont des zones de taille fixe de 80 caractères. Comme la taille de la clé est fixée d'avance, nul besoin d'un terminateur de ligne, ce qui complique beaucoup leur présentation avec les outils usuels du shell. Une astuce consiste à redéfinir la largeur du terminal à 80 colonnes ce qui permet d'utiliser less ou more, par exemple.

L'application FitsHeader lit l'entête FITS d'une image et présente les clés sous la forme de lignes de texte au standard UNIX, c'est-à-dire terminées par un retour-chariot (\n).

Cette application peut aussi accéder aux entêtes des images Eros 2 en consultant la base de données. Ces entêtes ont été extraits et sont conservées comme des fichiers séparés dans Irods et sont enregistrés sous forme comprimée dans la base de données où FitsHeader peut les retrouver.

Quelques références