Bibliothèque nationale / La numérisation, un travail de Titan
La numérisation est un acte de conservation du patrimoine culturel, comment le fut avant elle le microfilmage. Mais c’est aussi une manière de le valoriser et d’assurer son accès au plus grand nombre.
D’ici dix ans, la Bibliothèque nationale du Luxembourg (BNL) devrait avoir achevé la numérisation des documents appartenant à sa collection „Luxemburgensia“. Il y a là des journaux historiques (5 millions de pages), des livres (8 millions), mais aussi des documents iconographiques (cartes postales, 44.000 affiches). Quand ce travail titanesque sera achevé, l’ordre dans lequel les documents auront été numérisés importera peu. Dans cette période où les usagers, aux profils très variés, de la plate-forme „eluxemburgensia“, guettent avec avidité les prochaines mises en ligne, le détail a son intérêt.
Les journaux constituent le plus gros bloc du travail à accomplir. Près de 700.000 pages sont désormais numérisées depuis la mise en ligne de la petite dernière, la revue Hémecht en mars 2020. „Il y a encore un long chemin à faire mais avec la technologie et les processus qui s’améliorent, on arrive à augmenter le volume annuel“, explique Ralph Marschall, le project manager en numérisation de la BNL.
Comme au temps où l’on mettait les journaux sur microfilm, la numérisation est d’un grand intérêt pour la sauvegarde de documents anciens et ou détériorés. Elle permet de limiter à tout jamais les manipulations d’exemplaires souvent uniques pour ce qui est de documents anciens. „Les journaux, quand ils sont analysés, sont souvent restaurés, puis stockés dans des boîtes spéciales pour la conservation. Idéalement, on ne touche plus le papier qui est stocké dans le magasin“, poursuit Ralph Marschall.
La numérisation de journaux
La préservation reste donc un critère dans le choix des priorités de numérisation. Mais la qualité du document n’est plus le seul. Il y a aussi la demande qui ne lui était jamais bien éloignée non plus – on protègera d’autant plus un document qu’il est beaucoup demandé. Un troisième est celui de la possibilité de le mettre directement en ligne, sans que des questions complexes comme celles de droits d’auteur ne se posent. Les exemplaires numériques qui arrivent à la BNL en conformité avec le dépôt légal n’ont pas vocation à être mis aussitôt en ligne.
Les discussions entreprises avec les éditeurs sur les moyens d’obtenir l’équivalent digital de l’imprimé, débouchent également sur des discussions fructueuses sur les documents passés. Les journalistes sont aussi intéressés à voir leurs journaux numérisés pour faciliter les recherches dans les propres archives de leur journal. Ainsi, parmi les deux projets de numérisation en cours il y a le Mémorial A et les éditions du Luxemburger Wort couvrant la période des années 1950 aux années 1980. Le journal épiscopal devrait être encore mis en ligne à la fin de cette année. Sa mise en ligne devrait satisfaire aussi les généalogistes, qui trouvent dans les journaux un moyen de contourner les restrictions dans l’accès à l’Etat-civil. Elle satisfera aussi les historiens contemporains pour lesquels les quatre décennies d’après-guerre constituent un vaste champ d’investigation permettant de comprendre le développement unique du pays. Pour l’heure seul un hebdomadaire, le Lëtzebuerger Land; permettait de sillonner en ligne, l’époque. Et puis, elle attirera les nombreux citoyens qui veulent savoir ce qui s’est passé à un jour ou un endroit précis.
Le Luxemburger Zeitung, journal libéral qui a connu jusqu’à deux éditions par jour au début du XXe siècle, restera encore la grosse lacune de la plate-forme, dans l’attente de pouvoir en proposer la plus longue version possible. „On essaie d’avoir la collection complète pour numériser et s’il y a des manques, que ce soit minime. Il est plus facile de gérer la numérisation d’un bloc complet que de commencer à numériser quelques pages par ci, par là. Pour les utilisateurs aussi“, observe Ralph Marschall. „Le problème des journaux est qu’ils ont été conçus pour être jetés. Donc les gens n’ont pas nécessairement eu le réflexe de les garder.“
Nouveaux champs de recherche
Les copies numériques sont précieuses du fait qu’elles abolissent les distances entre le lecteur et le document. Mais c’est surtout dans les perspectives de recherches renouvelées qu’elles ouvrent que se cache la plus-value.
Toutefois, les documents issus des premiers essais de numérisation entamée en 2012 ont presque davantage à voir avec les microfilms qu’avec les dernières numérisations. Leur gros défaut est d’avoir été scannés en mode image et avec des scanners offrant des résolutions faibles que l’intelligence artificielle peut difficilement compenser. Ces collections ont été numérisées en mode image uniquement. Ainsi, l’usager n’y a que l’avantage de ne pas avoir à se déplacer à la bibliothèque et à manipuler les ouvrages. Mais il ne peut pas accéder à la recherche texte dans le document, qui, à partir du nom d’une personne, d’un lieu, d’un concept, d’un objet permet de partir à la pêche aux informations et de les copier facilement.
Pour ce qui est de la BNL, ces documents de première génération sont réunis sur la base luxemburgensia.bnl.lu. On y retrouve „La Clé du cabinet des princes“, couvrant presque tout le 15e siècle, la revue littéraire éphémère Floréal du début du siècle dernier. De surcroît, ces numérisations ont une qualité de résolution qui n’a plus rien à voir avec les canons du moment et qui ne facilitent pas la lecture et offrent des reproductions de faible qualité, ce qui est d’autant plus gênant pour l’iconographie. Or, des revues comme l’A-Z et la Luxemburger Illustrierte, qui appartiennent à cette génération, sont des mines d’or, pour les décennies 20 et 30, où les archives photos sont encore lacunaires.
Pour l’instant, la priorité est d’ajouter des nouveaux documents en ligne. Leur second passage sur un scanner, plus moderne cette fois, aura lieu sans doute plus tard. „Les algorithmes existent. Il faut les entrainer avec les données qu’on veut utiliser. On veut le faire. Notre souci majeur est que les données en dessous soient de bonne qualité. Sans de bons textes, de bonnes images, c’est très difficile d’extraire les données“, dit Ralph Marschall.
Une qualité maximale
„On fait la numérisation depuis plus de dix ans. Et au fur et à mesure, la technologie des scanners et le contrôle qualité des images sont améliorés. Ce qu’on numérise aujourd’hui est d’une bien plus grande qualité que ce qu’on numérisait il y a huit ans“, observe Ralph Marschall. Si l’intelligence artificielle peut quelque chose, c’est sans doute davantage pour cette dernière catégorie de numérisations plus récentes, qui sont passées sur des scans de meilleure qualité mais dont le rendu est d’une qualité encore insuffisante.
Cette qualité moindre empêche l’intelligence artificielle de faire son travail avec plus de précision. Les usagers d’„eluxemburgensia“ connaissent bien le problème, d’autant plus aigu quand on consulte des journaux germanophones recourant aux caractères gothiques. Beaucoup de mots sont mal identifiés („Jahre 1795“ lu „Iühre I7U5“, pour prendre un exemple), de telle sorte qu’on ne peut prétendre à l’exhaustivité d’une recherche par mots- clés et que l’usager doit apprendre à connaître les erreurs courantes de la machine pour lui extorquer quelques précieux résultats supplémentaires.
La parade est d’apprendre à l’intelligence artificielle de corriger ses propres erreurs en lui soumettant les scans de moins bonne qualité et le résultat juste du déchiffrement auquel elle doit aspirer. Les anciennes numérisations pourraient alors fournir un texte encore plus fidèle. La qualité médiocre de l’image pourrait alors toujours être compensée par une reproduction sur demande de l’original.
Il vaut mieux éviter de devoir de nouveau numériser. C’est coûteux en argent comme en temps. La numérisation demande des ressources humaines importantes. Au sein des sociétés sous-traitantes, spécialisées dans le scan et les métadonnées (basées en France, Allemagne, aux Etats-Unis et en Inde notamment), les développeurs adaptent un logiciel pour gérer la numérisation au cahier des charges; l’opérateur, pendant la numérisation, contrôle les titres et la segmentation. Cette opération est estimée en général à un euro par page, à une rapidité de 20.000 pages par mois.
Mais la numérisation consomme aussi des ressources humaines à la Bibliothèque nationale, employées en amont, pour l’analyse des documents à soumettre et l’écriture du cahier des charges, ainsi qu’en aval, pour le contrôle de la qualité.
Débats sans structure
Le processus est d’autant plus long que la BNL fait partie des rares bibliothèques au monde à proposer une numérisation particulièrement ambitieuse. „La numérisation que l’on fait à la BNL fait de nous un leader au niveau international, car il n’est pas fait seulement en mode texte, mais nous faisons aussi la segmentation et la création d’une structure logique“, explique Roxana Maurer. En d’autres mots, l’usager dispose de la structure du document qui lui permet de sauter directement à la colonne qui l’intéresse, dans le cas d’un journal.
Cette ambition explique les difficultés rencontrées pour la numérisation des débats de la Chambre des députés. „Les journaux sont plus difficiles que les livres. Mais les débats sont encore plus difficiles que les journaux“, résume Ralph Marschall. La BNL veut numériser ces débats, mais à la condition de pouvoir extraire des métadonnées intéressantes. Il s’agit de pouvoir identifier les différents points de l’ordre du jour, mais surtout de distinguer les intervenants à la Chambre. Or, le layout est très changeant et souvent ne met pas spécialement en avant l’identité de l’intervenant. L’opérateur qui intervient pour finaliser les détails, identifier les blocs, en fusionner ou en créer de nouveaux, prendrait beaucoup trop de temps à seconder la machine.
Alors, il vaut mieux remettre à plus tard et à d’autres développements informatiques le projet. Comme le souligne Ralph Marschall: „Des fois, on se demande, est-ce qu’on peut numériser les images d’abord et ensuite faire les métadonnées? Mais la réponse est non. Pendant la numérisation des images on trouve certains problèmes et pendant la création des données on trouve d’autres problèmes ou des manques qu’on n’a pas trouvés avant. Quand c’est un seul processus, ça marche mieux.“
Images-clés et réseaux neuronaux
La qualité optimale des numérisations permet de meillleures conditions de lecture et des illustrations de meilleure qualité en vue de leur reproduction. Il s’agit aussi de faciliter le travail à l’intelligence artificielle, notamment au vu de prochains développements dans le domaine.
Ce devrait être par exemple la reconnaissance des entités nommées dans le texte (une organisation, une date, une personne, un lieu) ou encore l’identification à l’intérieur des images, qui permettraient par exemple de générer toutes les images liées à un mot-clé et, par exemple en deux temps, trois mouvements, d’avoir accès à toutes les réclames d’une marque précise ou encore de reconnaître tous les motifs d’une image (y compris en soumettant au moteur de recherche une image).
La nouvelle visionneuse accessible depuis le mois de juin devrait accompagner la BNL dans toutes ces transformations, en permettant des versions numériques de plus grande qualité, adaptées aux smartphones et tablettes, et l’intégration de nouvelles fonctionnalités. La mise en valeur visuelle et pédagogique de cet incroyable fonds restera sans doute le talon d’Achille du concept et le prochain chantier à ouvrir. Au-delà des seules considérations techniques.
Les e-books
L’offre numérique de la BNL, ce sont aussi des e-books, accessibles à ses membres. Ce 6 août, la BNL faisait savoir l’ajout de plus de 19.200 livres jeunesse (disponibles en langue allemande, française et anglaise) à son panel de ressources numériques qui compte déjà 95.000 e-books scientifiques, 163.000 e-books du projet ebooks.lu (romans, lectures de loisirs, jeunesse), 77.800 e-journals (revues scientifiques) et 390 bases de données.
Garantir un accès durable: L’enjeu de la préservation numérique
Une fois la numérisation achevée, le travail n’est pas fini. Il faut comme pour les documents physiques oeuvrer à leur conservation. „Si on n’a pas d’activité de préservation numérique, on n’aura plus les objets et leur accès dans dix ans“, explique Roxana Maurer, qui en a la responsabilité à la BNL.
La préservation numérique consiste d’abord à disposer de plusieurs copies d’un même objet et de disposer de plusieurs endroits géographiques de stockage pour éviter toute perte définitive en cas de dommage sur un site. Tous les types de stockage ont ensuite une durée de vie. Il faut ainsi les varier, entre disque dur, serveur et cloud. „Il est possible qu’un disque dur qui fonctionne aujourd’hui ne fonctionne plus demain ou que, par endroits, les objets ne sont plus là“, poursuit l’experte.
Des liens persistants
Ensuite, il faut s’assurer que les formats de fichier numérique restent toujours lisibles et donc qu’on dispose toujours des logiciels pour les lire ou qu’on en modifie les formats pour qu’ils puissent rester lisibles. Or, en général, les documents numérisés sont transmis sous plusieurs formats.
Cette parte de veille technologique est faite par des machines qui contrôlent en masse les documents, explique Roxana Maurer. Elle s’applique aussi aux documents déjà transmis sous forme numérique, dans le cadre du dépôt légal. Or, ces derniers présentent une plus grande diversité de formats, la BNL n’ayant qu’une emprise limitée sur ceux qu’on lui adresse.
Enfin, un autre aspect de la préservation numérique consiste à préserver les liens d’accès aux documents numérisés. Le 1er juillet, la BNL annonçait le lancement de persist.lu, un système d’identifiants pérennes, basé sur le format ARK („Archival Resource Key“), dont tous les objets disponibles dans l’archive numérique sont dotées. La BNL est alors en mesure de garantir que l’URL de chacun d’entre eux fonctionnera toujours les prochaines décennies, „même si les plateformes et supports numériques initiaux ont changé ou cessé d’exister entretemps“. La BNL offre d’ailleurs un accès à persist.lu aux institutions qui y seraient intéressées.
- Un livre sur le colonialisme récompensé – Le choix de l’audace - 14. November 2024.
- Trois femmes qui peuvent toujours rêver: „La ville ouverte“ - 24. Oktober 2024.
- Une maison à la superficie inconnue: Les assises sectorielles annoncent de grands débats à venir - 24. Oktober 2024.
Google hätte es umsonst gemacht.