La Chrestothèque de L'ArchiTope

Comment (bien) scanner

  • Calculateur de résolution de numérisation
  • C'est quoi un scanner ?
  • La photo numérique, c'est pas pareil ?
  • Qu'est-ce qu'une image en mode point ?
  • Récupérer du texte avec un scanner...
  • Numériser des documents transparents
  • Comment les images sont-elles capturées ?
  • Que devient l'image numérisée ?
  • Que signifient tous ces nombres
  • Comment sélectionner les paramètres de numérisation ?
  • Comment numériser des documents généalogiques ou autres ?
  • Choisir la résolution de sortie pour des photos à archiver ?
  • Quand faut-il utiliser les résolutions interpolées ?
  • Un mot sur les compressions



  •   Aide à la détermination de la meilleure
    résolution de numérisation
    Périphérique: de résolution max
    Image Source: cm de large
    Image Finale: cm de large lpi
    NB: pour les calculs, on considère que l'image est rectangulaire avec des côtés dans le rapport 1:1,4 (ex le format 'carte postale' =10x14 cm) et en disposition 'portrait' (la largeur est donc le petit côté du rectangle). On peut imposer la linéature de l'imprimante en modifiant la case lpi et en cliquant le bouton correspondant.
    Résultat: Taille du fichier image
    Ko
    Résolution de numérisation
    ppp
    Sommaire   Aide

     


    Sommaire  

    C'est quoi un scanner ? Un scanner, qu'il soit à plat, c'est à dire permettant la numérisation d'une page posée à plat sur une vitre, à défilement, c'est à dire avec un mécanisme qui entraine la page dans le scanner, ou un scanner de diapositives, est un dispositif destiné à la capture d'images en mode point. Ceci ne signifie pas que le scanner ne peut pas capturer du texte, mais simplement que le texte en question sera "vu" par le scanner comme une image. La précision "en mode point" indique que l'image sera vue comme une juxtaposition de points discrets (ou séparés) et s'oppose au mode vectoriel dans lequel l'image est composée d'une série de lignes ou courbes décrites par des équations.

    Sommaire  

    La photo numérique. Les appareils photo numériques ont récemment introduit une nouvelle façon de capturer les images. Si le résultat peut se comparer à ce qu'on obtient avec un scanner (nous verrons les problèmes de résolution plus loin), la technique employée diffère cependant notablement. En effet, comme avec un scanner on obtient une image en "mode point", cependant la capture se fait, non par balayage de l'image, mais en une seule fois, grâce un capteur comportant des centaines de milliers ou des millions d'éléments sensibles.

    Sommaire  

    Qu'est-ce qu'une image en mode point? Une image en mode point est une image composée de points séparés juxtaposés (on dit de points discrets). Ces points sont donc des éléments d'image d'ou leur dénomination pixel (en anglais 'picture elements'). Ils sont fusionnés par votre oeil, ou plus généralement les 2 yeux et le cerveau qui va avec, pour reconstituer une image apparemment 'continue'. Il n'y a pas de mystère dans ce mécanisme. L'oeil lui-même est un capteur à éléments discrets. Ce sont en effets des cellules visuelles spécialisées, dont le nombre est relativement grand mais pas infini, qui captent la lumière émise par les objets. C'est donc très 'naturellement' que l'oeil va effectuer la fusion des pixels nécessaire à la perception d'une image agréable. Cependant, si on agrandit suffisamment l'image, avec une loupe ou avec un logiciel informatique, les points redeviennent visibles.


    figure 1

    figure 2
    Dans les images ci-dessus, la figure 2 (à droite) est un agrandissement de l'oeil droit, à gauche de la figure 1 (image de gauche)

    Sommaire  

    On ne parle que d'images en mode point, mais pourtant, je sais qu'on peut récupérer des textes dans un traitement de texte à l'aide d'un scanner ! C'est vrai, mais le scanner (ou la caméra numérique) ne fait toujours que fournir l'image en mode point qu'il capture, charge ensuite à un logiciel spécialisé de convertir cette image en texte. Un tel logiciel qui reconnait les caractères dans une image est aussi appelé logiciel d'OCR pour 'Optical Character Recognition' ou 'Reconnaissance Optique de Caractères'. La reconnaissance de caractère s'effectue sur une image en Noir et Blanc dont la résolution n'a généralement pas besoin de dépasser 300 points par pouce, soit environ 10 points par millimètre, sauf dans le cas d'une police de très petite taille. Il doit être clair que, pour l'instant, même si "l'intelligence" de ces logiciels est devenue suffisante pour reconnaître les caractères imprimés dans nombre de polices de caractères, et même de préserver la mise en page, il n'est pas encore question de reconnaissance de l'écriture manuscrite standart dans les applications "grand public".

    Sommaire  

    Peut-on 'scanner' des documents transparents ? Certains scanners à plat peuvent être complétés en option par un dos spécial qui permet de numériser des documents transparents. Soyons clair: il s'agit bien de numériser des documents et non des films. A moins qu'il s'agisse de films pour chambres professionnelles de très grand format, ce qui n'est pas courant chez le commun des mortels. Les 'dos pour transparents' sont donc inutilisables pour la numérisation des films 35 mm (microfilms, négatifs ou diapositives), non par le principe mis en jeu, mais simplement parce que la résolution optique du scanner recevant le dos en question sera généralement insuffisante. Cette restriction ne s'applique évidemment pas aux scanner 'haut-de-gamme' dont la résolution optique atteint ou dépasse 2000 points au pouce. Dans le cas général des besoins des 'amateurs', la numérisation des films pourra être réalisée à l'aide de scanners conçus spécifiquement pour cet usage. Ces 'scanners de diapositives' possèdent des résolutions optiques qui dépassent 1200 points par pouce, valeur minimum (a peine) acceptable, sur la surface d'une image d'un film de 35 mm. Bien qu'en 1998 les 'scanners de diapositives' soient plus coûteux que les scanner à plat, il reste tout de même bien plus économique de compléter son modeste scanner à plat par un tel scanner de films plutôt que d'investir dans un scanner 'haut-de-gamme' qui pourrait éventuellement assurer les deux fonctions. Notez toutefois qu'un scanner à plat permettant 1200 ppp en optique possède des caractéristiques qui le rapprochent des scanners de diapositives les moins performants. Il reste pourtant à les équiper d'un dos adapté s'il existe.

    Sommaire  

    Comment les images sont-elles capturées ? Comme votre oeil, un scanner ou une caméra numérique capture les images en les découpant en une succession de points. Dans votre oeil, les capteurs (les cellules visuelles) sont répartis sur une surface (la rétine). Cependant, pour un scanner, envisager une surface de capture de format A4 sans défaut et bon marché n'est pas réaliste. La capture de l'image est donc réalisée à l'aide d'une série de capteurs (il peut s'agir de CCD ou de diodes) disposés en ligne sur une barrette. Il faut donc balayer la surface de l'image en déplaçant la barrette ou, dans les scanner à défilement ou les scanner de diapositives, en déplaçant l'image. Au passage notons que scan signifie balayage en anglais. Pour le cas des images monochromes (en noir et blanc ou en nuances de gris) il suffit d'éclairer l'image et d'effectuer une lecture de la valeur de l'intensité lumineuse réfléchie par chaque point. Pour les images en couleurs, on éclaire chaque ligne de points successivement à l'aide des trois couleurs de base Rouge-Vert-Bleu (RVB) et il faut donc trois lectures d'intensité par point.
    Le cas des caméras et appareils photos numériques est plus simple. Ces dispositifs se comportent exactement comme l'œil. Cette fois, le capteur est formé d'une surface sensible comparable à celle des capteurs de scanner, mais dont les éléments sont disposés selon une géométrie à 2 dimensions comme dans la rétine. Ces capteurs comportent "seulement" 1 à 2 millions d'éléments sensibles (2,3 millions à la mi-1999) contre 6 7 millions de cellules visuelles rien que dans la zone centrale de la rétine. Toutefois, on peut noter que l'information fournie par les cellules visuelles est combinée pour être transmise par seulement environ un demi million de fibres nerveuses dans le nerf optique. On voit donc que la technique semble aujourd'hui suffisante pour fournir des images confortables.

    Les capteurs sont des transducteurs, ce qui signifie qu'ils convertissent (traduisent) une grandeur physique, ici la lumière, en une autre, le courant électrique. Les valeurs données par les capteurs sont numérisées par un Convertisseur Analogique - Numérique (CAN) et lues par un programme interne au scanner ou à la caméra. Elles sont stockées dans une mémoire temporaire (mémoire tampon) avant d'être expédiées dès que possible vers l'ordinateur par le même programme interne sous la supervision du pilote de scanner de l'ordinateur ou du programme de transfert pour les appareils photo. Un scanner n'est donc pas qu'une simple mécanique passive, c'est un petit robot qui joue le rôle d'un oeil pour votre ordinateur. La relative complexité du mécanisme de capture explique que le temps nécessaire à la lecture d'une image, en fait le temps de balayage de l'image par la barrette, ne soit pas négligeable. L'autre facteur déterminant la durée globale de la capture est la vitesse du transfert entre la mémoire du scanneur et l'ordinateur: une liaison de type SCSI sera plus performante - et plus chère - qu'une liaison parallèle ou pire, série. Aujourd'hui, la liaison USB s'annonce comme une solution intéressante, réunissant rapidité et faible coût.

    Sommaire  

    Que devient l'image numérisée ? Le résultat est une image formée d'une succession de points. Le programme pilote de scanner, qui est exécuté dans l'ordinateur, contrôle l'acquisition et reçoit les valeurs d'intensité lumineuse, éventuellement pour les trois couleurs, pour chacun des points de toutes les lignes balayées dans l'image. En plus des valeurs d'intensité lumineuse (la luminance) pour chaque couleur, il retient donc l'ordre des points, leur nombre dans une ligne ainsi que le nombre de lignes. Le plus souvent, le pilote de scanner est une application indépendante qui fournit, en supplément, des fonctions comme la prévisualisation, la sélection d'une partie d'image, ainsi qu'éventuellement la correction des caractéristiques de l'image telles que luminosité, contraste, saturation. Cette application peut cependant s'intégrer à l'intérieur des, ou être appelé par les..., autres applications qui traitent les images. Cette possibilité s'obtient grâce à une compatibilité avec un standart nommée TWAIN (ce mot n'est pas un acronyme et ne veut apparemment rien dire, ce qui a conduit certains à lui donner le sens de "Technology Without An Interesting Name", technologie dépourvue d'un nom intéressant). Le pilote, s'il est autonome, ou le programme de transfert pour les appareils photo, stocke dans un fichier les informations qu'il recueille; sinon cette fonction est dévolue au logiciel appelant. Le fichier image ainsi constitué aura l'un des nombreux formats propres tels TIFF, BMP, PCX, GIF, JPG, etc. La re-lecture de ce fichier dans un logiciel graphique permettra la reconstitution de l'image, son affichage, sa manipulation et son impression.

    Sommaire  

    Que signifient tous ces nombres qu'on cite dès qu'on parle d'image numérisée ? Il ne sera question ici que des scanners, puisque le vocabulaire technique des caméras se limite au nombre total d'éléments sensibles du capteur. Toutefois, signalons seulement qu'avec une résolution globale de 2,3 millions d'éléments sensibles, on s'approche du nombre de 3 millions de points image qu'il serait raisonnable d'avoir pour tout type d'image standard. Pourtant on est encore assez loin de l'idél pour un archivage numérique de documents qui serait d'environ 8 millions pour une page standard complète (voir plus loin les spécifications du NARA).
    De la description du mécanisme de capture de l'image par le scanner on aura retenu que l'image est découpée en éléments séparés, les points d'image ou pixels. Pour être décrit complètement, chaque point doit être affecté de 2 paramètres au moins: sa taille et sa valeur. On comprend aisément que plus les points sont petits et nombreux, plus l'information concernant l'image est détaillée. Ce paramètre est la "résolution de numérisation". On parle ici de "résolution optique", qui est la résolution réelle, et non de "résolution interpolée" que le petit robot malin qui vit dans les scanners obtient en "inventant" des points qu'il n'a pas vu entre les points réels. Une image étant une surface, on distingue en pratique une résolution horizontale (le nombre de points dans la barrette de CCD ou diodes) et une résolution verticale (le nombre de lignes analysées lors du balayage). Cette "résolution de numérisation" est donc exprimée par 2 valeurs en points par unité de longueur. Si l'unité de longueur est anglo-saxone on a des "dots per inch" (dpi); si on francise partiellement on a des "points par inch" (ppi); si on traduit entièrement on récupère des points par pouce (ppp); et si on respectait les normes internationales on devrait avoir des points/mm ou points/cm ce qui seraient pour nous plus parlant.

    image basse résolution
    Figure 3
    image haute résolution
    Figure 4

    La figure 3 a été scannée à 75 ppp en Noir et Blanc et agrandie pour avoir la même taille que la figure 4 qui est scannée à 300 ppp. Si vous ne voyez pas de différence: vos lunettes sont sales...

    Les valeurs couramment rencontrées pour les résolutions optiques des scanners à plat sont (en ppp) 300x300, 300x600, 600x1200, 1200x2000. Pour les barrettes de capteurs des scanners de diapositives, où les images à traiter sont plus petites et doivent donc être analysées plus finement, on rencontre des valeurs réelles de 1200 ppp (Epson). Attention, certainement pour des raisons commerciales, les constructeurs annoncent facilement des résolutions plus importantes (2400 dpi pour Epson, 2700 pour Canon). Lorqu'on étudie attentivement les notices techniques, il apparaît que ce sont des valeurs de 'sous-numérisation', ce qui correspond probablement (l'expression est 'floue') à une résolution interpolée. On remarquera qu'on a tendance à réduire à un seul nombre la valeur de la résolution. On dira couramment que le scanner a une résolution de 300 ppp. Cette habitude conduit à une sous estimation des différences qui existent entre les différents modèles. La qualité d'une numérisation dépend bien du nombre de points contenus AU TOTAL dans l'image. L'image étant une surface, le nombre de points qu'elle contient se calcule à partir des 2 valeurs de résolution horizontale et verticale. Par conséquent, le nombre de points dans une image numérisée varie comme le carré de la résolution lorsque celle-ci est exprimée par un seul nombre. Une image numérisée à 600 ppp n'a pas 2 fois plus de points que celle qui est numérisée à 300 ppp, elle en a 4 fois plus! La grandeur à prendre en compte serait donc en fait exprimée en DPSI (dots per square inch, points par pouce carré). Enfin, il est à noter qu'il n'est pas obligatoire d'utiliser la résolution maximum du scanner. Qui peut le plus peut le moins.

    Le second paramètre indispensable pour décrire chaque point est sa valeur. Par valeur j'entends le nombre qui code l'intensité de la lumière que le scanner a lue en numérisant le point. Si l'analyse de l'image se fait en couleurs on aura même 3 nombres correspondant à l'intensité de chacune des couleurs de base (RVB). De la précision de ces nombres dépend la précision du rendu des couleurs ou des niveaux de gris. Ce paramètre est appelé 'profondeur de numérisation'. Certains disent aussi 'résolution de bits' parce que cette profondeur est exprimée en nombre de bits utilisés pour coder les valeurs mesurées.

    image en Noir et Blanc 1 bit
    Figure 5
    image en niveaux de gris 8 bits
    Figure 6

    La figure 5 montre une image avec peu de niveaux de gris (en fait en NetB), la figure 6 est la même avec 256 niveaux (si vous ne voyez pas de différence, c'est que vous travaillez encore avec une machine des années 80).

    * Si la profondeur de numérisation est de 1 bit, chaque intensité ne peut prendre pour valeur que 0 ou 1. L'image image sera en 2 'couleurs', le plus souvent Noir pour le 0 et Blanc pour le 1. Ce codage convient en théorie pour une image au trait, un texte ou un dessin par exemple. Dans ces conditions, un octet contient les informations de 8 points consécutifs. A 1 bit par point, on ne peut donc reproduire que des lignes, mais encore faut-il que cette reproduction soit correcte. Or, si la résolution de numérisation est trop faible, les lignes ressembleront à un escalier. La seule méthode dont on dispose dans ce cas pour diminuer cet effet de 'marches d'escalier' est l'augmentation de la résolution. On aura souvent intérêt à utiliser la résolution maximum du dispositif de sortie (imprimante par exemple) comme résolution de numérisation, en tenant compte du facteur d'agrandissement ou réduction de l'image finale par rapport à l'original.


    numérisation 1 bit
    faible résolution
     
    numérisation 1 bit
    haute résolution

    * Si la profondeur de numérisation est de 8 bits (soit 1 octet) on pourra avoir au mieux 2^8 (lire 2 puissance 8)=256 niveaux de gris ou couleurs différentes. Ce mode de numérisation convient bien lorsqu'on désire numériser des images en niveaux de gris ou des images en couleurs en produisant un fichier de taille modeste. C'est aussi un mode qu'on pourra préférer pour reproduire des manuscrits anciens dont le papier est jauni et pour lesquels se posent des problèmes de contraste. Dans ce dernier cas, le fichier image sera plus gros que si on utilisait le N&B, mais la lecture sera nettement améliorée. Dans le cas de la couleur, il faut encore remarquer que chaque couleur de base ne disposera, en cas de partage le plus équitable possible, que de 2 ou 3 bits soit 4 ou 8 nuances différentes. En fait, on améliore souvent considérablement le rendu des images en restreignant les couleurs possibles à celles réellement présentes dans l'image, ce qui s'obtient en construisant une table des couleurs (rassurez-vous c'est le logiciel graphique qui s'en charge).


    image en 256 niveaux de gris

    * Si la profondeur de numérisation est supérieure on comprend qu'on obtiendra un plus grand nombre de nuances dans chacune des couleurs de base. Cela se réalise en codant les intensités sur plusieurs octets. Le plus souvent on choisit d'utiliser 1 octet par couleur de base (donc 3 octets au total ou 24 bits), ce qui fournit 256 nuances pour chaque couleur soit au total 256x256x256 = environ 16 millions de couleurs. Certains scanners "haut de gamme" augmentent encore cette valeur en numérisant sur 10, voire 12 bits chacune des couleurs de base ce qui donne en théorie des milliards de couleurs possibles. Dans ces derniers cas, la profondeur de numérisation globale est de 30 ou 36 bits ce qui représente 4 ou 4,5 octets et non plus 3, augmentant d'autant le 'poids' (la taille) du fichier image final. L'intérêt de cette possibilité réside essentiellement dans les traitements plus fins que le scanner pourra réaliser en interne, la carte graphique qui pilote le moniteur ne fonctionnant le plus souvent pour sa part, et au mieux, qu'en 24 bits. C'est également le cas de la plupart des logiciels de retouche photo pour amateurs; et c'est sans parler de l'imprimante qui, elle, saura produire guère plus que quelques (dizaines de) milliers de nuances!

    Sommaire  

    Comment faut-il sélectionner les paramètres de numérisation ? On pourrait penser qu'on a intérêt à numériser (scanner) une image avec la plus grande résolution possible. On n'aurait pas tout à fait tort, car on a alors le maximum de détails ou d'information. MAIS CE N'EST PAS AUSSI SIMPLE !!! En fait le problème n'est pas le même selon qu'on considère une 'consommation' immédiate de l'image numérisée (impression avec mon imprimante du moment à 300 ppp) ou un archivage en vue d'une conservation à long terme et une exploitation future (avec des matériel améliorés par le progrès technique). Dans le premier cas, en utilisant la résolution maximum, nous voilà partis pour travailler avec une image la plus grosse possible, ce qui veut dire que toute modification de l'image sera plus longue à appliquer et que nous risquons de saturer la mémoire de l'ordinateur ainsi que les capacités du processeur sans en tirer d'avantage! De plus s'il s'agit non plus d'une mais d'une série d'images alors des problèmes d'espace de stockage vont inévitablement se poser et ce malgré la taille confortable des disques d'aujourd'hui.

    Démonstration: vous voulez numériser une image qui remplit une page au format A4 (20x27 cm). Votre scanner vous offre une résolution de 300 dpi ce qui signifie (le pouce valant à peu près 2,54 cm les jours sans pluie, au niveau de la mer) 120 points/cm. La numérisation va donc vous donner une image virtuelle composée de:

    • 120 x 20 = 2400 points pour chaque ligne horizontale
    • 120 x 27 = 3240 lignes horizontales
    • soit au total 2400 x 3240 = 7 776 000 points pour une image en 256 niveaux de gris (par exemple pour un manuscrit un peu passé)
    • si l'image était en couleur RVB on aurait 3x8 bits (ou 3 octets) par point et donc elle "pèserait" 7 776 000 x 3 = 23 328 000 octets (soit environ 22 Méga Octets).
    Et si on est déraisonnable alors? Si, par exemple, on sélectionne une résolution de 2000 ppi (800 points par cm) avec une "profondeur" de numérisation de 12 bits ?
    • Notre image en 4096 niveaux de gris 'pèserait' alors (800x20)x(800x27) x 1,5 = 518 400 000 octets (494 Méga octets)
    • Dans les mêmes conditions, une image en milliards de couleur 'pèserait' alors: (800x20)x(800x27) x 4,5 = 1 555 200 000 octets !!! Vous avez bien lu! Il n'y a pas de zéro en trop, cela se lit encore 1,45 Giga Octets.

    Sommaire  

    Estimation de la résolution optimale: cette estimation nécessite de prendre en compte le dispositif de sortie utilisé. Si on compte afficher l'image sur un écran, il y a une concordance entre les points numérisés et les points affichés (chaque point de l'écran peut prendre une parmi des millions de couleurs, à condition que la mémoire de la carte graphique l'autorise). Cependant, les écrans ont une résolution faible de l'ordre de 60 à 80 points par pouce. Dans les exemples qui suivent, les images ont été fortement compressées pour limiter le temps de transfert de la page; il convient donc de ne pas tenir compte des distorsions de couleur introduites. On reconnaîtra un fragment de la boîte de dialogue "Définir les couleurs personnalisées" de Windows et à droite un agrandissement de la magnifique couleur "lie-de-vin" sélectionnée.


    Figure 7

    Figure 8
    Les 2 images ci-dessus reproduisent ce qu'on peut voir à l'écran de l'image originale et d'un agrandissement écran de la couleur sélectionnée. Aux distorsions de compression près, on a des tons continus. Chaque point de l'écran est en effet formé de seulement 3 éléments, respectivement Rouge, Vert et Bleu, dont l'activation est proportionnelle à l'intensité des 3 composantes de couleur de base (vous pouvez visualiser ces triades à l'aide d'une loupe). Le tube écran est bien un dispositif analogique, dans lequel chaque point peut être activé pour prendre une quasi infinité de valeurs intermédiaires, d'où la facilité avec laquelle il peut reproduire des millions de couleurs.

    En revanche, si l'image est destinée à être imprimée, la concordance ne se fera pas point à point. Sur les imprimantes actuelles les plus courantes (imprimantes à jet d'encre), chaque micro goutte d'encre ne peut avoir qu'une seule couleur en tout ou rien. Les points de couleur peuvent se mélanger mais le mélange se faisant à partir de 3 encres différentes (+ 2 récemment), on ne peut obtenir une grande variété de nuances. Pour reproduire les nuances de l'original, il faut combiner plusieurs points de couleurs assez petits pour que l'oeil et le cerveau les confondent. Il en résulte qu'à chaque point de l'original numérisé devra correspondre non pas un mais plusieurs points imprimés, organisés en une 'cellule' qui, elle, représente le point numérisé. L'image est formée par une trame de points et non par des tons continus.


    Figure 9

    Figure 10
    Les 2 images ci-dessus, ont été obtenues en imprimant la boîte de dialogue à l'aide d'une imprimante jet-d'encre couleur disposant d'une résolution de 300 ppp. La portion de l'image obtenue correspondant à la couleur sélectionnée a été ensuite numérisée à l'aide d'un scanner autorisant une résolution de numérisation réelle de 2000 ppp. On voit sur 2 agrandissements différents que la couleur sélectionnée est approximée à l'aide d'une trame formée de 'cellules' comportant des points de seulement 2 des couleurs de base auxquelles s'ajoute le noir et le blanc.
    La conclusion est qu'une imprimante qui peut déposer 300 points unitaires par pouce, ne pourra ainsi représenter de manière nuancée que beaucoup moins de points de l'original (environ 75). A l'inverse, on peut dire que comme il faut plusieurs points imprimés pour chacun des points de l'original, une image numérisée comportant 300 ppp aurait besoin d'une impression au moins à 1200 dpi pour que ses nuances soient reproduites. On comprend qu'on a pris ici un facteur de correspondance de 4 entre résolution de l'image à imprimer et résolution de l'imprimante. C'est le même facteur qui est utilisé dans le tableau interactif qui ouvre cette page. Cette 'résolution de l'image à imprimer' qui diffère de celle de l'imprimante est connue des imprimeur sous le nom de linéature de trame (les revues d'art (ce qui se fait de mieux) sont imprimées avec une linéature inférieure à 200 lpi -lignes par inch-). C'est cette valeur qui sert de base à l'estimation de la résolution de numérisation. Elle est combinée au facteur d'agrandissement (ou réduction) éventuel à appliquer pour passer de l'original à l'image finale, pour calculer une résolution de numérisation optimale. Malheureusement, il est en pratique souvent très difficile, sinon impossible, de connaître la linéature de trame des imprimantes 'grand public'. On peut estimer qu'il faut au moins des 'cellules' de 6 à 8 points de côté pour avoir suffisament de nuances. Cette estimation donne une linéature d'environ 75 - 100 lpi pour une imprimante à 600 ppp. Pourquoi choisir un facteur 4 comme ci-dessus dans ce cas ? C'est qu'on estime en général que l'image à imprimer aura un bon rendu si sa résolution est environ 2 fois la linéature de trame (ce 'facteur de qualité' peut être adapté selon les besoins entre 1 et 2). En conclusion, une imprimante à 600 ppp donnera de bons résultats avec une image à 150 - 200 ppp. Attention cependant à bien comprendre que toutes ces estimation ne concernent que les images en couleurs ou en nuances de gris et non les images au trait. La résolution optimale ainsi déterminée vous donnera une image optimale en sortie à partir d'un fichier dont la taille sera minimale. A la lumière de ce qui précède, vous aurez compris qu'une résolution supérieure à cette résolution optimale ne se justifie que pour permettre un agrandissement de certains détails de l'original sans perte de qualité. Vous pouvez faire des essais à l'aide du tableau interactif situé en début de page et vérifier le bien fondé de ses propositions. Sélectionnez les paramètres qui correspondent à votre configuration réelle et laissez le tableau vous suggérer la résolution de numérisation optimale. Le bouton 'Evaluer' n'est utile que pour ceux qui ne disposent pas d'un 'butineur' récent. Au cas où vous connaissez celle de votre imprimante, vous avez la possibilité d'imposer la linéature en entrant sa valeur dans la case appropriée (lpi) et en forçant son usage en cliquant sur le bouton 'Imposer linéature'. Le choix du facteur de qualité vous sera alors également proposé. Dans tous les autres cas, laissez les valeurs proposées par le programme.

    Sommaire  

    Je suis généalogiste et je veux archiver numériquement mes documents, quelle est la meilleure procédure ? Pour répondre à cette question difficile, le mieux est de s'en remettre à des spécialistes. Les informations qui sont données ci-dessous sont empruntées au NARA (National Archives and Records Administration = Archives Nationales américaines), et elles sont dues à Steven Puglia, spécialiste de la Préservation et de l'Image, et Barry Roginski, Informaticien. Si les Archives Nationales de notre beau pays mettaient à la disposition du public des informations similaires, nous serions ravis de l'apprendre ;-) Pour ceux qui veulent en savoir plus, un document (en anglais) téléchargeable depuis le site du NARA résume les règles à respecter pour numériser les documents à archiver.

    Toutes les numérisations doivent se faire soit en 256 niveaux de gris soit en 16 millions de couleurs (RVB 24 bits). Idéalement, la numérisation devrait être réglée sur une gamme de gris Kodak. Le contrôle se faisant sur un écran capable d'afficher 16 millions de couleurs, avec un gamma de 2.2, une température de couleur de 6500K, et au contraste et luminosité correctement ajustés. Dans ces conditions, il faut obtenir le blanc à RVB 247, le point milieu à RVB 105 et le noir à RVB 8 (voir plus de détails dans les documents originaux). Enfin seule la résolution optique réelle doit être prise en compte et on s'interdira donc toute interpolation.

    1. Paramètres de numérisation pour les documents à archiver (nota: des valeurs divisées par 2 peuvent être suffisantes pour un usage privé).
      - texte ou cartes et graphes: 300 dpi pour les documents jusqu'à 28x43 cm; 200 dpi au delà. Ces résolutions sont compatibles avec les logiciels de Reconnaissance de Caractères.
      - Photos ou peintures: ajuster la résolution pour obtenir 3000 points dans la plus grande dimension. Photos carrées: ajuster pour avoir 2700x2700 points. Cette résolution autorise une reproduction de qualité "magazine" à 133 lpi. Dans le cas de négatifs ou diapositifs, les mêmes instructions s'appliquent et on aura donc 3000x2000 points.
      - Formats de fichiers: TIFF non compressé, ordre des octets Intel, Entête de type 6

    2. Images de travail (ou à diffuser sur l'Internet)
      - Ces images s'obtiennent à partir des précédentes par rééchantillonnage. On réduira les images pour obtenir 90 dpi ou 600 points pour la plus grande dimension. La meilleure procédure inclut un filtre de flou avant rééchantillonnage suivi d'un filtre de netteté pour restituer une image proche de l'original. Notons que ces résolutions correspondent à ce que peuvent donner les appareils photos numériques moyens ou haut de gamme en ce début de 1999.
      - le format de fichier sera GIF 89a ou, pour les plus grands documents, JPEG avec un facteur de compression maximum de 20.

    3. Mini images de sélection
      - les mini images seront obtenues par rééchantillonnage à 72 dpi, pour des images de 200 points pour la plus grande dimension.
      - dans tous les cas le format de fichier sera GIF 89a

    Un dernier conseil pour terminer: ne se séparer des originaux à aucun prix!

    Sommaire  

    Je veux archiver numériquement mes photos, comment dois-je les numériser ? La question se pose en effet de savoir quel dispositif de sortie considérer lorsqu'on numérise des photos pour archivage et réutilisation future. Si l'on considère le ou les dispositifs qu'on possède aujourd'hui (par exemple une imprimante - jet d'encre - dont la résolution est seulement 300 ppp ou moins), on risque de se limiter à des résolutions inférieures à ce qu'il sera possible de reproduire dans un avenir pas si éloigné (les imprimantes capables de 600 ou 720 ppp sont désormais courantes). Il faut donc anticiper sur les développement à venir. Il est relativement plus difficile de prévoir l'avenir que le passé, mais on peut, sans grand risque de se tromper, penser que les matériels professionnels qui donnent satisfaction depuis des années devrait rester une référence pour quelques temps encore. Une résolution de sortie de 1200 ppp, correspondant à une linéature de 120 à 180 lpi, est dans cette gamme considérée comme très convenable. Il y a fort à parier qu'une telle qualité finira par devenir accessible au plus grand nombre. On peut donc prendre cette résolution de sortie comme base pour calculer la résolution de numérisation à utiliser pour des photos à archiver. On n'oubliera pas de prendre en compte un agrandissement éventuel entre l'original et la reproduction envisagée. Pour un usage immédiat, il suffira de ramener, à l'aide d'un logiciel de traitement graphique, la résolution de l'image à une valeur compatible avec le matériel disponible. Reste la question de la pérennité des supports de stockage. A ce jour, personne n'est sûr que les CD-Rom seront toujours lisibles dans quelques décennies. La prudence est donc de mise. Qu'on se souvienne seulement qu'il n'y a guère, on stockait sur des disquettes de 5 pouces, et quelques années avant sur des 'floppy disques' - on ne disait pas couramment disquette - de 8 pouces. Combien d'entre nous pourraient encore relire ces reliques ? Un dernier conseil pour terminer: ne se séparer des originaux à aucun prix! Je l'ai déjà écrit ? Il n'y a que des avantages à le répéter ;-)

    Sommaire  

    Mais à quoi sert d'avoir une résolution interpolée si elle est déconseillée? Les valeurs de résolution interpolée de vos scanner doivent être réservées à des usages bien précis. Un exemple est la numérisation de documents texte ou au trait (donc Noir et Blanc) pour lesquels on souhaite une reproduction de bonne qualité qui ne laisse pas apparaître de crénelage (ou dents de scie) même en cas d'agrandissement lors de la reproduction. On choisira donc une résolution de numérisation interpolée qui sera égale (au facteur d'agrandissement près) à la résolution de sortie. Un schéma qu'on veut agrandir 2 fois sur une imprimante à 600 dpi sera utilement numérisé avec une résolution interpolée à 1200 ppp, même si le scanner ne possède qu'une résolution optique maximale de 300 ppp.

    Sommaire  

    Un mot sur les compressions Il est clair que, quel que soit le soin mis à choisir les paramètres les meilleurs pour la numérisation, on va se trouver forcément devant un problème de volume de fichiers à stocker. Ce problème est déjà abordé le petit chapitre sur l'archivage et je ne rappellerai ici que quelques définitions pour permettre de bien comprendre ce qui précède.
    Un document texte numérisé comporte des traits noirs et des espaces blancs. Une photographie comporte souvent aussi de larges zone de densité (pour images en niveau de gris) ou de couleur identique. Ces caractéristiques introduisent une répétition inutile de la même information et il est donc judicieux d'utiliser un mode de stockage qui réduit ces répétitions inutiles. C'est le rôle des formats de compression.
    Comme on l'a vu plus haut, pour l'archivage on choisira obligatoirement un format de compression sans perte. Un format courant répondant à cette exigence est TIF (codage LZW) qui est en général proposé par les logiciels de retouche photo. GIF qui apparaît aussi très efficace sur les images couleur 24-bit, réussit cette performance en calculant une palette optimisée de 256 couleurs. Ce format fait donc perdre de l'information quand il est utilisé sur des images 24-bit mais est tout à fait acceptable si l'image de départ n'a pas cette profondeur de numérisation. On pourra aussi utiliser un format général d'archivage, proposé cette fois en dehors des logiciels de retouche photo par des utilitaires spécialisés (TAR ou ZIP) sont des exemples sur des plateformes différentes). L'intérêt de cette solution est de donner des résultats en moyenne très bons dans tous les cas tout en étant universelle et facile à mettre en oeuvre une fois installée.
    Pour ce qui est des images numérisées à transmettre sur le Web, on recommande plus haut le format JPEG pour les grands documents. Il est nécessaire de faire une mise en garde à propos de ce format de fichiers. Jpeg est un format compressé à taux variable. Les résultats peuvent être excellents. Mais Jpeg a un gros défaut: pour faire maigrir les images, il leur fait perdre des informations. Une fois perdues, ces informations ne peuvent jamais plus être retrouvées. Jpeg est donc à proscrire absolument pour ce qui est de l'archivage. La conséquence est que la compression au format Jpeg implique qu'on conserve aussi l'image originale dans un format sans perte.

    Bonnes numérisations!

    Sommaire

    Page d'accueil d'ArchiTope Cliquez pour envoyer un message


    Cette page vous est infligée (sans garantie) par Jacques Louvel. L'auteur assume ce qu'il dit mais en contrepartie considère que les idées émises et leur formulation lui appartiennent (autrement dit, si vous me pillez n'oubliez pas de me citer).

    visites