Un enjeu historique / Plus accessibles que les archives – Les promesses de la digitalisation des anciens journaux
La digitalisation des journaux offre sur un plateau à la recherche historique, ce que les archives leur refusent encore: l’accès aux décennies 1950-80.
Les lecteurs ne devront pas s’étonner de voir l’histoire des „Trente glorieuses“ et des quelques années de crise qui les suivent revenir avec insistance ces prochains mois et prochaines années. Qu’on veuille faire l’histoire de la publicité, d’un événement, d’un individu, d’un objet, d’un sentiment, d’un livre, qu’on aime l’histoire statistique ou la micro-histoire, la mise en ligne des archives des journaux luxembourgeois pour les décennies 50-80 ouvre de nouvelles possibilités d’études sur une période décisive pour le Luxembourg à de nombreux égards. Toutefois, rien de sérieux ne pourra être fait sans recours à des outils méthodiques, forgés à une époque où les concepts de l’Optical character recognition (OCR) et du data mining relevaient encore de la science-fiction.
Des publications très attendues
A la fin du mois de novembre, le serveur du site eluxemburgensia de la Bibliothèque nationale du Luxembourg (BNL) ont connu la surchauffe. La mise en ligne du Luxemburger Wort pour la période 1950-80 a fait atteindre à cette plate-forme de recherche des hauteurs peu communes. De 3.000 à 4.000 pages lues en moyenne au mois d’octobre, la fréquentation est montée progressivement au mois de novembre, jusqu’à ce que la nouvelle s’ébruite, pour atteindre un pic de 19.000 pages vues durant la seule journée du 23 novembre. Comme si de l’autre côté de l’interface, les usagers habituels du site s’étaient réunis pour tester en même temps les mots-clés qui leur permettraient d’identifier des articles du journal catholique capables de compléter leurs recherches.
L’historien Henri Wehenkel ne s’est pas amusé à repasser au révélateur des algorithmes ses nombreux sujets de recherche passés. Il a en tête une galerie de dissidents de gauche sur lesquels il rédige actuellement un article. Il s’est ainsi assuré que rien ne lui avait échappé sur la trajectoire de René Blum, ambassadeur en Union soviétique jusqu’en 1956. Il a aussi, en moins de temps qu’il ne le faut pour le dire, remis la main sur une déclaration, dont il avait connaissance, par laquelle, la même année, le professeur Biermann s’est publiquement désolidarisé du parti communiste national et de l’URSS.
A 80 ans passés, Henri Wehenkel en a vu passer des nouvelles écritures de l’histoire, des nouveaux types de sources et des nouvelles méthodes de recherche. Il ne manque pas de profiter de ce confort technologique nouveau, qui permet un gain de temps précieux. Il a longtemps eu la chance d’avoir des collections privées de journaux confiées par des militants lui permettant de travailler de chez lui-même. Elles sont d’ailleurs pour la plupart entre les mains de la BNL qui doit les numériser. Mais il apprécie encore davantage les nouvelles découvertes permises par l’outil. On n’aurait jamais pu par le passé en faire en si grand nombre, sauf à lire tous les journaux et faire des fiches complètes avec mots-clés. Ce qui serait beaucoup trop pour la vie d’un seul homme.
Sur le site de la BNL, l’hebdomadaire d’Lëtzebuerger Land est déjà en ligne depuis fin 2013. Il restera encore quelque temps le seul titre à couvrir les quatre dernières décennies. Mais la mise en ligne d’un quotidien pour les décennies 1950-80 comme le Luxemburger Wort apporte un flot d’informations autrement plus riche que celui d’un hebdomadaire. Il permet de mieux retracer les étapes d’un événement et de l’idée qu’on s’en fait. Il offre une matière plus brute et permet d’accéder à ce qui est un sujet croissant d’intérêt de la recherche historique: le quotidien.
Il est urgent que d’autres quotidiens soient mis sur internet, si on ne veut pas une image unilatérale et tronquée de la vérité. Le problème principal est de croiser ses sources. Je crains un déséquilibre pour des historiens paresseux ou pressés.historien
La Revue devait être digitalisée en 2020. Le Tageblatt viendra ensuite en renfort. La numérisation de ses numéros après 1950 devrait commencer au courant de l’année prochaine pour une mise en ligne au plus tôt l’année suivante. Ce n’est pas pour déplaire à l’historien qui estime „urgent que d’autres quotidiens soient mis sur internet, si on ne veut pas une image unilatérale et tronquée de la vérité“. „Le problème principal est de croiser ses sources“, poursuit-il. „Je crains un déséquilibre pour des historiens paresseux ou pressés. Si je lis les récents travaux de bachelor ou de master faits à l’université du Luxembourg sur des questions contemporaines, la Guerre froide, les années 60, il manque beaucoup de choses. Ils font confiance au Luxemburger Wort, alors que c’était un journal très engagé, très partiel.“ Le prochain journal qui sera mis en ligne en 2022, le Luxemburger Zeitung (1868-1941), attendu par beaucoup de chercheurs, apportera d’ailleurs de la diversité d’opinions et un accès privilégié aux cercles proches du pouvoir pour la période antérieure à 1950.
„Gérer la masse“
Disposer d’un moteur de recherche pour fouiller les anciens journaux est un luxe, dont il ne faut en effet pas sous-estimer les inconvénients. „Quand on cherche avec un mot-clé, ça aplatit un peu tout. La seule mesure devient la pertinence du résultat par rapport au mot-clé“, acquiesce Estelle Bunout, post-doctorante au sein du Luxembourg Centre for Contemporary and Digital History (C2DH) à l’université du Luxembourg. Derrière chaque mot qui apparaît sur le moteur de recherche, il y a un journaliste et un journal, avec leurs visions du monde, leurs sensibilités, leurs choix. „La presse est une matière très riche et très complexe à la fois. On ne peut pas reconstituer la genèse d’un article en particulier. Il ne faut pas passer à côté d’une analyse du contenu, du contexte.“ A force de naviguer à travers des milliers de réponses, on oublie qu’il pourrait y en avoir encore plus si tous les journaux étaient digitalisés. „Il y a plein de limites techniques. Une chose qu’on oublie assez facilement quand on cherche dans cette masse, c’est que tous les journaux ne sont pas numérisés.“ Il peut manquer ainsi des voix précieuses, par exemple celle de journaux contestataires, quand seule la presse proche du pouvoir est disponible.
Pour les chercheurs de l’université, qu’ils soient historiens, sociologues ou linguistes, une plate-forme comme celle de la BNL, pensée pour le grand public, n’est pas adaptée. Si elle fait gagner le temps qu’on prenait jadis à éplucher les journaux, la digitalisation peut en faire perdre en noyant les chercheurs sous des dizaines de milliers d’occurrences. Pendant trois ans, Estelle Bunout a participé avec le C2DH et un consortium de chercheurs européens à l’Impresso Project qui a permis de développer un moteur de recherche (impresso-project.ch, qui aide les chercheurs à „gérer la masse“. L’une des nombreuses plus-values de cette interface accessible à tous est la mise en contexte qu’offre le „topic modeling“, en proposant des thèmes que les algorithmes identifient dans les réponses.
Cela permet de filtrer les réponses mais aussi de suggérer de nouvelles pistes de réflexion, capables d’enrichir le travail de recherche. „C’est à l’historien d’analyser si c’est pertinent, utile. Mais, à la manière du petit poucet, on peut suivre des petits cailloux et voir si la piste est intéressante ou pas“, explique Estelle Bunout. Cette possibilité de suggérer aux chercheurs des thèmes qu’ils n’avaient pas anticipés guide d’ailleurs tous les travaux de création d’interface pour les sources digitalisées. C’est la question de la sérendipité, terme savant qui désigne l’art de découvrir des choses en se laissant surprendre. Estelle Bunout préfère évoquer la „générosité“ du moteur de recherche qui va faire remonter des réponses qui se situeraient trop loin dans le déroulé et auraient peu de chances d’être lues.
Impresso est aussi généreux dans le sens où il offre la possibilité de télécharger en un seul document l’ensemble de la revue de presse sur mesure ainsi créée. Mais il est aussi parfois avare en réponses. Il le doit aux limites des algorithmes, qu’on a jamais fini d’éduquer, comme des enfants à qui l’on apprend la lecture. Derrière un mot, il y a un journaliste, mais il y a aussi un typographe, une presse et un papier qui n’ont pas été choisis pour permettre un scan des décennies plus tard. Les journaux imprimés en caractères gothiques allemands au XIXe siècle posent ainsi autant de problèmes aux algorithmes que l’écriture manuelle cursive en pose aux généalogistes. Pour les journaux plus récents, il suffit d’une ligne pas droite ou d’une excentricité dans la mise en page pour que les algorithmes se mettent à parler le javanais.
Les chercheurs doivent mettre en place des stratégies pour contourner ces erreurs. La plate-forme Impresso les aide, en suggérant des mots équivalents ou mal orthographiés comme mot-clé de recherche. Elle enseigne parallèlement aussi à l’algorithme, quels sont les erreurs qu’il ne devrait plus faire (comme s’étêter à lire Bläller plutôt que Blätter, ou gazelle plutôt que gazette). L’ancestrale critique des sources ne disparaît donc pas avec la digitalisation des journaux. Et l’exhaustivité, comme l’objectivité absolue, restent des leurres.
Du droit d’information au droit à l’oubli
Même si les archives de l’Etat restent encore décisives pour comprendre bon nombre de dossiers, la plate-forme eluxemburgensia.lu permet de compenser en partie l’impossibilité d’accéder aux archives pour la période d’après 1950. Au point où la BNL passe pour les contemporanistes comme une alliée tandis que les Archives nationales seraient plutôt une gardienne jalouse de ses trésors.
Pour Henri Wehenkel, la mise en ligne du Luxemburger Wort jusqu’en 1980, et des autres journaux qui vont suivre, „sauve la recherche historique au Luxembourg“, car elle permet „de contourner les dispositions restrictives des ANLux et de retrouver grâce aux moteurs de recherche de la BNL des traces publiques des événements de la période 1950-1980“. Pour faire l’histoire de la Seconde Guerre mondiale, il aura fallu attendre le gouvernement de Gaston Thorn (1974-79) pour accéder aux dossiers des criminels de guerre et au recueil de rapports de police. L’accès aux archives de la Police des étrangers et de l’Epuration n’est acquis que depuis une vingtaine d’années. Par contre, „les documents pour la période postérieure à 1945 sont encore largement hors d’accès, pour ce qui concerne les dossiers de police ou les dossiers des ministres“.
Et la nouvelle loi sur les archives adoptée en 2019 a compliqué les choses en portant le délai de protection à 75 ans, à compter de la date de décès de la personne impliquée. „Elle a pour conséquence de soumettre les demandes à un examen préalable du dossier demandé et à une autorisation spéciale pour les copies avec interdiction de citer les noms …“, déplore l’historien. „Il y a certes des exceptions, celles de la recherche et de l’intérêt public, mais malgré tout, il faut alors faire la demande et s’exposer à un refus. Le résultat est de bloquer la recherche pour la période postérieure à 1945 et à la rendre de plus en plus difficile pour 40-45 et d’obliger les chercheurs luxembourgeois à profiter des réglementations plus libérales à l’étranger ou à se rendre sur internet.“
La loi sur les archives a été adoptée en même temps que le règlement sur la protection des données, sur lequel elle a été alignée, en dépit des pratiques des pays étrangers. La BNL agit dans le cadre législatif de ses missions légales de conservation du patrimoine national, de promotion de la production intellectuelle et de facilitation de la recherche. Archives et journaux ne sont pas tout à fait de même nature. Les questions qu’ils posent non plus. Ce sont plutôt les questions de droits d’auteurs qui rendent difficile la digitalisation des journaux. Il faut négocier une convention avec le journal qui prévoit la gestion des risques en cas de conflit. C’est pourquoi d’ailleurs, il n’est pas possible de télécharger en ligne les articles du Luxemburger Wort au format pdf uniquement. Si un ayant droit, un auteur ou un photographe, n’est pas d’accord pour une mise en ligne, il peut faire une demande pour que le document ne soit pas visible sur internet, mais il serait tout de même signalé dans les réponses du moteur de recherche et consultable en bibliothèque.
Une autre question se pose pour ces journaux – c’est celle du droit à l’oubli. Théoriquement, toute personne a le droit de demander à ce que son nom ne soit pas trouvable par moteur de recherche. „Pour l’instant, nous n’avons jamais été confronté à ce cas. Si quelqu’un demandait que son nom ne soit plus recherchable, notre approche serait de mettre en place une commission composée de personnes externes à la bibliothèque“, explique Ralph Marschall, project manager de la digitalisation à la BNL. In fine, ce pourrait être la justice qui trancherait.
Intérêt littéraire
La conservatrice au Centre national de littérature (CNL) Nicole Sahl, s’est fait une spécialité d’identifier qui se cache derrière les pseudonymes dans les journaux. En 2018, elle a publié un abécédaire des pseudonymes qui n’aurait sans doute pas vu le jour sous cette forme (et n’aurait pas eu un si grand intérêt) sans la plate-forme eluxemburgensia. La plate-forme lui a non seulement permis de repérer les articles contenant les pseudonymes et l’identité réelle de leurs auteurs, mais elle a pu en même temps y récolter beaucoup d’anecdotes et de petites histoires qui permettent de rendre bien plus vivant, un travail qui aurait risqué sans cela d’être aride. Nicole Sahl n’a pas encore eu le temps de tester le Luxemburger Wort mis en ligne. Mais elle continuera sans aucun doute son travail sur les pseudonymes, en attendant, elle aussi, que d’autres journaux se rajoutent, pour faciliter la lecture du „ping pong“ auquel se livrent les journaux, pour identifier de nouveaux pseudonymes.
Au CNL, la plate-forme est utilisée quotidiennement, pour les recherches qu’on y mène et pour nourrir le dictionnaire des auteurs. Le nom d’une œuvre ou de son auteur peut suffire à retrouver rapidement la date de sa réalisation ou de sa présentation sur scène pour une pièce de théâtre. On peut aussi retrouver les mentions de texte qui ne figurent pas dans les catalogues des bibliothèques. La mise en ligne du Luxemburger Zeitung, journal très friand de vie culturelle, sera une source précieuse.
Une autre aide serait de repasser au scanner la mine d’or que sont le dictionnaire biographique de Jules Mersch ou encore l’A-Z Luxemburger Illustrierte, publié dans les années 20-30. Cela a déjà été fait; mais c’était aux premiers temps de la digitalisation. Et les images réalisées ne sont pas d’assez bonne qualité pour permettre le travail de l’intelligence artificielle chargée de reconnaître le texte et de la restituer avec le moins d’erreurs possibles. A l’aube des années 2020 la seule présence en ligne ne suffit plus aux journaux anciens pour faire face à la concurrence.
- Un livre sur le colonialisme récompensé – Le choix de l’audace - 14. November 2024.
- Trois femmes qui peuvent toujours rêver: „La ville ouverte“ - 24. Oktober 2024.
- Une maison à la superficie inconnue: Les assises sectorielles annoncent de grands débats à venir - 24. Oktober 2024.
Sie müssen angemeldet sein um kommentieren zu können.
Melden sie sich an
Registrieren Sie sich kostenlos