Objets, Champs, Images

8 Mars 2018

La répartition des images en termes de répertoires dans iRods présente une difficulté: le nombre important d'images pour certains programmes et champs.

Dans cette étude, je ne considère que les images "t" et "r", c'est-à-dire les images complètes réduites.

Le nombre de champs par programme est raisonnable. Le plus conséquent est le programme "nr", pour Naines rouges, qui compte un peu plus de 500 champs (514). Le second plus important en termes de champs est "cg", Centre galactique, qui compte 141 champs. Les autres sont à moins de 100 champs.

Consacrer un répertoire iRods par champ ne constitue donc pas un obstacle.

Le point délicat réside dans le nombre important d'images dans certains champs – en ignorant les programmes techniques (flats) ou trop particuliers :

Code Programmes Min Max
aj Amas jeunes 216 944
bs Beta Scuti 5.905 6.513
cg Centre galactique 160 21.389
cp LMC-SMC Cepheides 1.790 2.697
gb Gamma bursts 15 167
gn Gamma Normae 1474 10.685
gs Gamma Scuti 5.894 6421
lm Large Magellanic Cloud 4.633 10.779
nr Naines rouges 8 580
qu Quasars 16 200
sm Small Magellanic Cloud 150 18.277
sn Supernova 16 200
tm Theta Muscaelenses 1.797 8.657
vl Voie Lactee 16 16
xt Trous noirs 285 285

Pourquoi est-ce préoccupant ? D'abord parce que les systèmes de fichiers n'aiment pas trop les répertoires avec des milliers d'entrées. Ensuite parce que l'utilisateur qui explore les répertoires soit directement avec la commande ils, soit via un système graphique risque d'être noyé sous les sorties…

On peut envisager 4 approches:

  1. séparer les images par caméra – cela réduira déjà par deux le nombre d'images par répertoire;
  2. séparer les images par années et mois;
  3. séparer arbitrairement les images par lot – par exemple 500 ou 1000 images par répertoire;
  4. ne rien faire, en laissant toutes les images d'un même champ ensemble, et faire confiance à iRods...

Le principal désavantage d'un tri des images est que cela va pénaliser les petits programmes...

D'un autre côté, si on envisage des organisations différentiées, selon le nombre d'images, on risque d'aboutir à une désorganisation préjudiciable.

Du point de vue de la logique, le tri par années semble le plus naturel. Il reste cependant encore 300 champs à plus de 1.000 images, et 20 à plus de 2.000. Le plus préoccupant est le Centre galactique qui a trois champs à plus de 3.000 images, dont 2, le 002 de l'année 2000 à 7.000 images.

Et même en sous-classant par mois, il reste 3 cas sérieux:

Reste donc la répartition bloquée...