La Chrestothèque de L'ArchiTope |
| Comment (bien) scanner |
|
Sommaire C'est quoi un scanner ? Un scanner, qu'il soit à plat, c'est à dire permettant la numérisation d'une page posée à plat sur une vitre, à défilement, c'est à dire avec un mécanisme qui entraine la page dans le scanner, ou un scanner de diapositives, est un dispositif destiné à la capture d'images en mode point. Ceci ne signifie pas que le scanner ne peut pas capturer du texte, mais simplement que le texte en question sera "vu" par le scanner comme une image. La précision "en mode point" indique que l'image sera vue comme une juxtaposition de points discrets (ou séparés) et s'oppose au mode vectoriel dans lequel l'image est composée d'une série de lignes ou courbes décrites par des équations. SommaireLa photo numérique. Les appareils photo numériques ont récemment introduit une nouvelle façon de capturer les images. Si le résultat peut se comparer à ce qu'on obtient avec un scanner (nous verrons les problèmes de résolution plus loin), la technique employée diffère cependant notablement. En effet, comme avec un scanner on obtient une image en "mode point", cependant la capture se fait, non par balayage de l'image, mais en une seule fois, grâce à un capteur comportant des centaines de milliers ou des millions d'éléments sensibles. SommaireQu'est-ce qu'une image en mode point? Une image en mode point est une image composée de points séparés juxtaposés (on dit de points discrets). Ces points sont donc des éléments d'image d'ou leur dénomination pixel (en anglais 'picture elements'). Ils sont fusionnés par votre oeil, ou plus généralement les 2 yeux et le cerveau qui va avec, pour reconstituer une image apparemment 'continue'. Il n'y a pas de mystère dans ce mécanisme. L'oeil lui-même est un capteur à éléments discrets. Ce sont en effets des cellules visuelles spécialisées, dont le nombre est relativement grand mais pas infini, qui captent la lumière émise par les objets. C'est donc très 'naturellement' que l'oeil va effectuer la fusion des pixels nécessaire à la perception d'une image agréable. Cependant, si on agrandit suffisamment l'image, avec une loupe ou avec un logiciel informatique, les points redeviennent visibles.
On ne parle que d'images en mode point, mais pourtant, je sais qu'on peut récupérer des textes dans un traitement de texte à l'aide d'un scanner ! C'est vrai, mais le scanner (ou la caméra numérique) ne fait toujours que fournir l'image en mode point qu'il capture, charge ensuite à un logiciel spécialisé de convertir cette image en texte. Un tel logiciel qui reconnait les caractères dans une image est aussi appelé logiciel d'OCR pour 'Optical Character Recognition' ou 'Reconnaissance Optique de Caractères'. La reconnaissance de caractère s'effectue sur une image en Noir et Blanc dont la résolution n'a généralement pas besoin de dépasser 300 points par pouce, soit environ 10 points par millimètre, sauf dans le cas d'une police de très petite taille. Il doit être clair que, pour l'instant, même si "l'intelligence" de ces logiciels est devenue suffisante pour reconnaître les caractères imprimés dans nombre de polices de caractères, et même de préserver la mise en page, il n'est pas encore question de reconnaissance de l'écriture manuscrite standart dans les applications "grand public". SommairePeut-on 'scanner' des documents transparents ? Certains scanners à plat peuvent être complétés en option par un dos spécial qui permet de numériser des documents transparents. Soyons clair: il s'agit bien de numériser des documents et non des films. A moins qu'il s'agisse de films pour chambres professionnelles de très grand format, ce qui n'est pas courant chez le commun des mortels. Les 'dos pour transparents' sont donc inutilisables pour la numérisation des films 35 mm (microfilms, négatifs ou diapositives), non par le principe mis en jeu, mais simplement parce que la résolution optique du scanner recevant le dos en question sera généralement insuffisante. Cette restriction ne s'applique évidemment pas aux scanner 'haut-de-gamme' dont la résolution optique atteint ou dépasse 2000 points au pouce. Dans le cas général des besoins des 'amateurs', la numérisation des films pourra être réalisée à l'aide de scanners conçus spécifiquement pour cet usage. Ces 'scanners de diapositives' possèdent des résolutions optiques qui dépassent 1200 points par pouce, valeur minimum (a peine) acceptable, sur la surface d'une image d'un film de 35 mm. Bien qu'en 1998 les 'scanners de diapositives' soient plus coûteux que les scanner à plat, il reste tout de même bien plus économique de compléter son modeste scanner à plat par un tel scanner de films plutôt que d'investir dans un scanner 'haut-de-gamme' qui pourrait éventuellement assurer les deux fonctions. Notez toutefois qu'un scanner à plat permettant 1200 ppp en optique possède des caractéristiques qui le rapprochent des scanners de diapositives les moins performants. Il reste pourtant à les équiper d'un dos adapté s'il existe. SommaireComment les images sont-elles capturées ?
Comme votre oeil, un scanner ou une caméra numérique capture les images en les découpant
en une succession de points. Dans votre oeil, les capteurs (les
cellules visuelles) sont répartis sur une surface (la rétine).
Cependant, pour un scanner, envisager une surface de capture de
format A4 sans défaut et bon marché n'est pas réaliste. La capture
de l'image est donc réalisée à l'aide d'une série de capteurs (il
peut s'agir de CCD ou de diodes) disposés en ligne sur une barrette.
Il faut donc balayer la surface de l'image en déplaçant la barrette
ou, dans les scanner à défilement ou les scanner de diapositives,
en déplaçant l'image. Au passage notons que scan signifie balayage
en anglais. Pour le cas des images monochromes (en noir
et blanc ou en nuances de gris) il suffit d'éclairer l'image et
d'effectuer une lecture de la valeur de l'intensité lumineuse
réfléchie par chaque point. Pour les images en couleurs, on éclaire
chaque ligne de points successivement à l'aide des trois couleurs de
base Rouge-Vert-Bleu (RVB) et il faut donc trois lectures d'intensité
par point.
Que devient l'image numérisée ? Le résultat est une image formée d'une succession de points. Le programme pilote de scanner, qui est exécuté dans l'ordinateur, contrôle l'acquisition et reçoit les valeurs d'intensité lumineuse, éventuellement pour les trois couleurs, pour chacun des points de toutes les lignes balayées dans l'image. En plus des valeurs d'intensité lumineuse (la luminance) pour chaque couleur, il retient donc l'ordre des points, leur nombre dans une ligne ainsi que le nombre de lignes. Le plus souvent, le pilote de scanner est une application indépendante qui fournit, en supplément, des fonctions comme la prévisualisation, la sélection d'une partie d'image, ainsi qu'éventuellement la correction des caractéristiques de l'image telles que luminosité, contraste, saturation. Cette application peut cependant s'intégrer à l'intérieur des, ou être appelé par les..., autres applications qui traitent les images. Cette possibilité s'obtient grâce à une compatibilité avec un standart nommée TWAIN (ce mot n'est pas un acronyme et ne veut apparemment rien dire, ce qui a conduit certains à lui donner le sens de "Technology Without An Interesting Name", technologie dépourvue d'un nom intéressant). Le pilote, s'il est autonome, ou le programme de transfert pour les appareils photo, stocke dans un fichier les informations qu'il recueille; sinon cette fonction est dévolue au logiciel appelant. Le fichier image ainsi constitué aura l'un des nombreux formats propres tels TIFF, BMP, PCX, GIF, JPG, etc. La re-lecture de ce fichier dans un logiciel graphique permettra la reconstitution de l'image, son affichage, sa manipulation et son impression. SommaireQue signifient tous ces nombres
qu'on cite dès qu'on parle d'image numérisée ?
Il ne sera question ici que des scanners, puisque le vocabulaire technique des
caméras se limite au nombre total d'éléments sensibles du capteur.
Toutefois, signalons seulement qu'avec une résolution globale de 2,3 millions
d'éléments sensibles, on s'approche du nombre de 3 millions de points
image qu'il serait raisonnable d'avoir pour tout type d'image standard. Pourtant on
est encore assez loin de l'idél pour un archivage numérique de
documents qui serait d'environ 8 millions pour une page standard complète
(voir plus loin les spécifications du NARA).
La figure 3 a été scannée à 75 ppp en Noir et Blanc et agrandie pour avoir la même taille que la figure 4 qui est scannée à 300 ppp. Si vous ne voyez pas de différence: vos lunettes sont sales... Les valeurs couramment rencontrées pour les résolutions optiques des scanners à plat sont (en ppp) 300x300, 300x600, 600x1200, 1200x2000. Pour les barrettes de capteurs des scanners de diapositives, où les images à traiter sont plus petites et doivent donc être analysées plus finement, on rencontre des valeurs réelles de 1200 ppp (Epson). Attention, certainement pour des raisons commerciales, les constructeurs annoncent facilement des résolutions plus importantes (2400 dpi pour Epson, 2700 pour Canon). Lorqu'on étudie attentivement les notices techniques, il apparaît que ce sont des valeurs de 'sous-numérisation', ce qui correspond probablement (l'expression est 'floue') à une résolution interpolée. On remarquera qu'on a tendance à réduire à un seul nombre la valeur de la résolution. On dira couramment que le scanner a une résolution de 300 ppp. Cette habitude conduit à une sous estimation des différences qui existent entre les différents modèles. La qualité d'une numérisation dépend bien du nombre de points contenus AU TOTAL dans l'image. L'image étant une surface, le nombre de points qu'elle contient se calcule à partir des 2 valeurs de résolution horizontale et verticale. Par conséquent, le nombre de points dans une image numérisée varie comme le carré de la résolution lorsque celle-ci est exprimée par un seul nombre. Une image numérisée à 600 ppp n'a pas 2 fois plus de points que celle qui est numérisée à 300 ppp, elle en a 4 fois plus! La grandeur à prendre en compte serait donc en fait exprimée en DPSI (dots per square inch, points par pouce carré). Enfin, il est à noter qu'il n'est pas obligatoire d'utiliser la résolution maximum du scanner. Qui peut le plus peut le moins.Le second paramètre indispensable pour décrire chaque point est sa valeur. Par valeur j'entends le nombre qui code l'intensité de la lumière que le scanner a lue en numérisant le point. Si l'analyse de l'image se fait en couleurs on aura même 3 nombres correspondant à l'intensité de chacune des couleurs de base (RVB). De la précision de ces nombres dépend la précision du rendu des couleurs ou des niveaux de gris. Ce paramètre est appelé 'profondeur de numérisation'. Certains disent aussi 'résolution de bits' parce que cette profondeur est exprimée en nombre de bits utilisés pour coder les valeurs mesurées. La figure 5 montre une image avec peu de niveaux de gris (en fait en NetB), la figure 6 est la même avec 256 niveaux (si vous ne voyez pas de différence, c'est que vous travaillez encore avec une machine des années 80). * Si la profondeur de numérisation est de 1 bit, chaque intensité ne peut prendre pour valeur que 0 ou 1. L'image image sera en 2 'couleurs', le plus souvent Noir pour le 0 et Blanc pour le 1. Ce codage convient en théorie pour une image au trait, un texte ou un dessin par exemple. Dans ces conditions, un octet contient les informations de 8 points consécutifs. A 1 bit par point, on ne peut donc reproduire que des lignes, mais encore faut-il que cette reproduction soit correcte. Or, si la résolution de numérisation est trop faible, les lignes ressembleront à un escalier. La seule méthode dont on dispose dans ce cas pour diminuer cet effet de 'marches d'escalier' est l'augmentation de la résolution. On aura souvent intérêt à utiliser la résolution maximum du dispositif de sortie (imprimante par exemple) comme résolution de numérisation, en tenant compte du facteur d'agrandissement ou réduction de l'image finale par rapport à l'original. * Si la profondeur de numérisation est de 8 bits (soit 1 octet) on pourra avoir au mieux 2^8 (lire 2 puissance 8)=256 niveaux de gris ou couleurs différentes. Ce mode de numérisation convient bien lorsqu'on désire numériser des images en niveaux de gris ou des images en couleurs en produisant un fichier de taille modeste. C'est aussi un mode qu'on pourra préférer pour reproduire des manuscrits anciens dont le papier est jauni et pour lesquels se posent des problèmes de contraste. Dans ce dernier cas, le fichier image sera plus gros que si on utilisait le N&B, mais la lecture sera nettement améliorée. Dans le cas de la couleur, il faut encore remarquer que chaque couleur de base ne disposera, en cas de partage le plus équitable possible, que de 2 ou 3 bits soit 4 ou 8 nuances différentes. En fait, on améliore souvent considérablement le rendu des images en restreignant les couleurs possibles à celles réellement présentes dans l'image, ce qui s'obtient en construisant une table des couleurs (rassurez-vous c'est le logiciel graphique qui s'en charge). * Si la profondeur de numérisation est supérieure on comprend qu'on obtiendra un plus grand nombre de nuances dans chacune des couleurs de base. Cela se réalise en codant les intensités sur plusieurs octets. Le plus souvent on choisit d'utiliser 1 octet par couleur de base (donc 3 octets au total ou 24 bits), ce qui fournit 256 nuances pour chaque couleur soit au total 256x256x256 = environ 16 millions de couleurs. Certains scanners "haut de gamme" augmentent encore cette valeur en numérisant sur 10, voire 12 bits chacune des couleurs de base ce qui donne en théorie des milliards de couleurs possibles. Dans ces derniers cas, la profondeur de numérisation globale est de 30 ou 36 bits ce qui représente 4 ou 4,5 octets et non plus 3, augmentant d'autant le 'poids' (la taille) du fichier image final. L'intérêt de cette possibilité réside essentiellement dans les traitements plus fins que le scanner pourra réaliser en interne, la carte graphique qui pilote le moniteur ne fonctionnant le plus souvent pour sa part, et au mieux, qu'en 24 bits. C'est également le cas de la plupart des logiciels de retouche photo pour amateurs; et c'est sans parler de l'imprimante qui, elle, saura produire guère plus que quelques (dizaines de) milliers de nuances! SommaireComment faut-il sélectionner les paramètres de numérisation ? On pourrait penser qu'on a intérêt à numériser (scanner) une image avec la plus grande résolution possible. On n'aurait pas tout à fait tort, car on a alors le maximum de détails ou d'information. MAIS CE N'EST PAS AUSSI SIMPLE !!! En fait le problème n'est pas le même selon qu'on considère une 'consommation' immédiate de l'image numérisée (impression avec mon imprimante du moment à 300 ppp) ou un archivage en vue d'une conservation à long terme et une exploitation future (avec des matériel améliorés par le progrès technique). Dans le premier cas, en utilisant la résolution maximum, nous voilà partis pour travailler avec une image la plus grosse possible, ce qui veut dire que toute modification de l'image sera plus longue à appliquer et que nous risquons de saturer la mémoire de l'ordinateur ainsi que les capacités du processeur sans en tirer d'avantage! De plus s'il s'agit non plus d'une mais d'une série d'images alors des problèmes d'espace de stockage vont inévitablement se poser et ce malgré la taille confortable des disques d'aujourd'hui. Démonstration: vous voulez numériser une image qui remplit une page au format A4 (20x27 cm). Votre scanner vous offre une résolution de 300 dpi ce qui signifie (le pouce valant à peu près 2,54 cm les jours sans pluie, au niveau de la mer) 120 points/cm. La numérisation va donc vous donner une image virtuelle composée de:
Estimation de la résolution optimale: cette estimation nécessite de prendre en compte le dispositif de sortie utilisé. Si on compte afficher l'image sur un écran, il y a une concordance entre les points numérisés et les points affichés (chaque point de l'écran peut prendre une parmi des millions de couleurs, à condition que la mémoire de la carte graphique l'autorise). Cependant, les écrans ont une résolution faible de l'ordre de 60 à 80 points par pouce. Dans les exemples qui suivent, les images ont été fortement compressées pour limiter le temps de transfert de la page; il convient donc de ne pas tenir compte des distorsions de couleur introduites. On reconnaîtra un fragment de la boîte de dialogue "Définir les couleurs personnalisées" de Windows et à droite un agrandissement de la magnifique couleur "lie-de-vin" sélectionnée.
En revanche, si l'image est destinée à être imprimée, la concordance ne se fera pas point à point. Sur les imprimantes actuelles les plus courantes (imprimantes à jet d'encre), chaque micro goutte d'encre ne peut avoir qu'une seule couleur en tout ou rien. Les points de couleur peuvent se mélanger mais le mélange se faisant à partir de 3 encres différentes (+ 2 récemment), on ne peut obtenir une grande variété de nuances. Pour reproduire les nuances de l'original, il faut combiner plusieurs points de couleurs assez petits pour que l'oeil et le cerveau les confondent. Il en résulte qu'à chaque point de l'original numérisé devra correspondre non pas un mais plusieurs points imprimés, organisés en une 'cellule' qui, elle, représente le point numérisé. L'image est formée par une trame de points et non par des tons continus.
La conclusion est qu'une imprimante qui peut déposer 300 points unitaires par pouce, ne pourra ainsi représenter de manière nuancée que beaucoup moins de points de l'original (environ 75). A l'inverse, on peut dire que comme il faut plusieurs points imprimés pour chacun des points de l'original, une image numérisée comportant 300 ppp aurait besoin d'une impression au moins à 1200 dpi pour que ses nuances soient reproduites. On comprend qu'on a pris ici un facteur de correspondance de 4 entre résolution de l'image à imprimer et résolution de l'imprimante. C'est le même facteur qui est utilisé dans le tableau interactif qui ouvre cette page. Cette 'résolution de l'image à imprimer' qui diffère de celle de l'imprimante est connue des imprimeur sous le nom de linéature de trame (les revues d'art (ce qui se fait de mieux) sont imprimées avec une linéature inférieure à 200 lpi -lignes par inch-). C'est cette valeur qui sert de base à l'estimation de la résolution de numérisation. Elle est combinée au facteur d'agrandissement (ou réduction) éventuel à appliquer pour passer de l'original à l'image finale, pour calculer une résolution de numérisation optimale. Malheureusement, il est en pratique souvent très difficile, sinon impossible, de connaître la linéature de trame des imprimantes 'grand public'. On peut estimer qu'il faut au moins des 'cellules' de 6 à 8 points de côté pour avoir suffisament de nuances. Cette estimation donne une linéature d'environ 75 - 100 lpi pour une imprimante à 600 ppp. Pourquoi choisir un facteur 4 comme ci-dessus dans ce cas ? C'est qu'on estime en général que l'image à imprimer aura un bon rendu si sa résolution est environ 2 fois la linéature de trame (ce 'facteur de qualité' peut être adapté selon les besoins entre 1 et 2). En conclusion, une imprimante à 600 ppp donnera de bons résultats avec une image à 150 - 200 ppp. Attention cependant à bien comprendre que toutes ces estimation ne concernent que les images en couleurs ou en nuances de gris et non les images au trait. La résolution optimale ainsi déterminée vous donnera une image optimale en sortie à partir d'un fichier dont la taille sera minimale. A la lumière de ce qui précède, vous aurez compris qu'une résolution supérieure à cette résolution optimale ne se justifie que pour permettre un agrandissement de certains détails de l'original sans perte de qualité. Vous pouvez faire des essais à l'aide du tableau interactif situé en début de page et vérifier le bien fondé de ses propositions. Sélectionnez les paramètres qui correspondent à votre configuration réelle et laissez le tableau vous suggérer la résolution de numérisation optimale. Le bouton 'Evaluer' n'est utile que pour ceux qui ne disposent pas d'un 'butineur' récent. Au cas où vous connaissez celle de votre imprimante, vous avez la possibilité d'imposer la linéature en entrant sa valeur dans la case appropriée (lpi) et en forçant son usage en cliquant sur le bouton 'Imposer linéature'. Le choix du facteur de qualité vous sera alors également proposé. Dans tous les autres cas, laissez les valeurs proposées par le programme. Sommaire Je suis généalogiste et je veux archiver numériquement mes documents, quelle est la meilleure procédure ? Pour répondre à cette question difficile, le mieux est de s'en remettre à des spécialistes. Les informations qui sont données ci-dessous sont empruntées au NARA (National Archives and Records Administration = Archives Nationales américaines), et elles sont dues à Steven Puglia, spécialiste de la Préservation et de l'Image, et Barry Roginski, Informaticien. Si les Archives Nationales de notre beau pays mettaient à la disposition du public des informations similaires, nous serions ravis de l'apprendre ;-) Pour ceux qui veulent en savoir plus, un document (en anglais) téléchargeable depuis le site du NARA résume les règles à respecter pour numériser les documents à archiver. Toutes les numérisations doivent se faire soit en 256 niveaux de gris soit en 16 millions de couleurs (RVB 24 bits). Idéalement, la numérisation devrait être réglée sur une gamme de gris Kodak. Le contrôle se faisant sur un écran capable d'afficher 16 millions de couleurs, avec un gamma de 2.2, une température de couleur de 6500°K, et au contraste et luminosité correctement ajustés. Dans ces conditions, il faut obtenir le blanc à RVB 247, le point milieu à RVB 105 et le noir à RVB 8 (voir plus de détails dans les documents originaux). Enfin seule la résolution optique réelle doit être prise en compte et on s'interdira donc toute interpolation. 1. Paramètres de numérisation pour les documents à archiver (nota: des valeurs divisées
par 2 peuvent être suffisantes pour un usage privé).
2. Images de travail (ou à diffuser sur l'Internet)
3. Mini images de sélection
Un dernier conseil pour terminer: ne se séparer des originaux à aucun prix! SommaireJe veux archiver numériquement mes photos, comment dois-je les numériser ? La question se pose en effet de savoir quel dispositif de sortie considérer lorsqu'on numérise des photos pour archivage et réutilisation future. Si l'on considère le ou les dispositifs qu'on possède aujourd'hui (par exemple une imprimante - jet d'encre - dont la résolution est seulement 300 ppp ou moins), on risque de se limiter à des résolutions inférieures à ce qu'il sera possible de reproduire dans un avenir pas si éloigné (les imprimantes capables de 600 ou 720 ppp sont désormais courantes). Il faut donc anticiper sur les développement à venir. Il est relativement plus difficile de prévoir l'avenir que le passé, mais on peut, sans grand risque de se tromper, penser que les matériels professionnels qui donnent satisfaction depuis des années devrait rester une référence pour quelques temps encore. Une résolution de sortie de 1200 ppp, correspondant à une linéature de 120 à 180 lpi, est dans cette gamme considérée comme très convenable. Il y a fort à parier qu'une telle qualité finira par devenir accessible au plus grand nombre. On peut donc prendre cette résolution de sortie comme base pour calculer la résolution de numérisation à utiliser pour des photos à archiver. On n'oubliera pas de prendre en compte un agrandissement éventuel entre l'original et la reproduction envisagée. Pour un usage immédiat, il suffira de ramener, à l'aide d'un logiciel de traitement graphique, la résolution de l'image à une valeur compatible avec le matériel disponible. Reste la question de la pérennité des supports de stockage. A ce jour, personne n'est sûr que les CD-Rom seront toujours lisibles dans quelques décennies. La prudence est donc de mise. Qu'on se souvienne seulement qu'il n'y a guère, on stockait sur des disquettes de 5 pouces, et quelques années avant sur des 'floppy disques' - on ne disait pas couramment disquette - de 8 pouces. Combien d'entre nous pourraient encore relire ces reliques ? Un dernier conseil pour terminer: ne se séparer des originaux à aucun prix! Je l'ai déjà écrit ? Il n'y a que des avantages à le répéter ;-) SommaireMais à quoi sert d'avoir une résolution interpolée si elle est déconseillée? Les valeurs de résolution interpolée de vos scanner doivent être réservées à des usages bien précis. Un exemple est la numérisation de documents texte ou au trait (donc Noir et Blanc) pour lesquels on souhaite une reproduction de bonne qualité qui ne laisse pas apparaître de crénelage (ou dents de scie) même en cas d'agrandissement lors de la reproduction. On choisira donc une résolution de numérisation interpolée qui sera égale (au facteur d'agrandissement près) à la résolution de sortie. Un schéma qu'on veut agrandir 2 fois sur une imprimante à 600 dpi sera utilement numérisé avec une résolution interpolée à 1200 ppp, même si le scanner ne possède qu'une résolution optique maximale de 300 ppp. SommaireUn mot sur les compressions
Il est clair que, quel que soit le soin mis à choisir les paramètres les
meilleurs pour la numérisation, on va se trouver forcément devant un
problème de volume de fichiers à stocker. Ce problème est déjà abordé
le petit chapitre sur l'archivage et je ne rappellerai ici que quelques
définitions pour permettre de bien comprendre ce qui précède.
Bonnes numérisations! Sommaire |
Cette page vous est infligée (sans garantie) par Jacques Louvel. L'auteur assume ce qu'il dit mais en contrepartie considère que les idées émises et leur formulation lui appartiennent (autrement dit, si vous me pillez n'oubliez pas de me citer).
visites