Guide du projet

Comment fonctionne ce site, comment les données sont extraites, normalisées et publiées.

Le pipeline : du manuscrit au site web

Manuscrit Transkribus HTR Claude AI (analyse) MySQL nepos.be

Le projet combine deux intelligences artificielles aux forces complémentaires. Transkribus (modèle Text Titan, taux d'erreur < 3 %) transforme les manuscrits en texte lisible par machine. Ensuite, Claude (Anthropic) prend le relais pour des tâches qui demandent de comprendre le contexte — pas seulement de lire les lettres.

Claude assure l'extraction structurée (répertoires, registres, actes), la traduction trilingue (français, anglais, allemand), et la normalisation prosopographique. Les scripts PHP et Python qui orchestrent le tout ont été développés itérativement avec l'aide de Claude, et vérifiés par ChatGPT et Gemini.

La vue triptyque (manuscrit | transcription HTR | traduction) permet à tout chercheur de vérifier visuellement le résultat. Des scores de confiance signalent les extractions incertaines.

Les sources documentaires

Le site traite plusieurs types de documents d'archives luxembourgeoises, principalement issus des fonds des Archives Nationales du Luxembourg (ANLux) :

  • Répertoires notariaux — index chronologiques des actes passés devant notaire (XVIIe–XIXe siècle). 18 notaires, ~40 000 entrées.
  • Actes notariés — les textes complets des actes, transcrits et traduits. Contrats de mariage, ventes, testaments, inventaires.
  • Registres paroissiaux — baptêmes, mariages et sépultures (XVIIe–XIXe siècle). Actuellement : Nommern.
  • Œuvres de Loi — actes de juridiction gracieuse devant les échevins (Schöffen). Ventes, héritages, tutelles (XVIIe–XVIIIe siècle).
  • Documents historiques — chroniques, Weistümer, coutumiers (XVe–XVIIIe siècle).
  • Pièces de procès — dossiers judiciaires d'Ancien Régime.

Les manuscrits sont rédigés en plusieurs langues : français, allemand, latin et luxembourgeois, souvent mélangés dans un même document.

La recherche de personnes

Chaque document traité est analysé pour en extraire les mentions de personnes : noms, prénoms, rôles, lieux, dates. Ces mentions sont stockées dans une table centrale (52 000+ mentions à ce jour) qui permet une recherche transversale sur l'ensemble des sources.

Les résultats sont groupés par patronyme canonique : une recherche sur « WEYDERT » affichera aussi les variantes WEIJDERT, WEYDART, WEIDERT, etc. Chaque mention est un lien vers le document source.

Important : à ce stade, les mentions ne sont pas encore regroupées en individus. Dix mentions « Johann WEYDERT » peuvent correspondre à une, deux ou plusieurs personnes distinctes. Le regroupement en individus est l'étape suivante (voir Étapes à venir).

La normalisation des noms

Les archives luxembourgeoises présentent un défi majeur : les noms y apparaissent sous des dizaines de formes différentes, selon la langue, l'époque et le scribe. Un même patronyme peut être écrit SCHMIDT, SCHMIED, SCHMIT, SCHMIEDT, SCHMITZ, SCHMIEDS…

La normalisation procède en trois couches :

  1. Tables de correspondance exacte (~7 000 variantes → ~300 formes canoniques). Couvrent les génitifs (-S : WEBERS→WEBER), les clusters orthographiques (BOCKOLTZ/BOCKHOLTZ), les erreurs HTR (ESCHNEIDER→SCHNEIDER), les formes latines (LUDOVICI).
  2. Recherche approximative (fuzzy matching) utilisant la phonétique de Cologne (conçue pour l'allemand, contrairement à Soundex qui est anglophone) combinée à une distance de Levenshtein normalisée. Cela capture des variantes comme SCHOUVENBERG→SCHAUWENBURG que la correspondance exacte manque.
  3. Revue humaine systématique pour la zone grise (score 0.10–0.15). Au-delà de 0.15, les faux positifs dominent (~85–100 %).

Taux de résolution actuel : patronymes 67,2 %  ·  prénoms 76,6 %

La recherche de lieux

Les lieux mentionnés dans les actes et registres sont extraits et consultables. La recherche est textuelle (pas encore normalisée) : « Mersch » trouvera les mentions exactes, mais pas « Miersch » ou « Merscht ».

Particularité luxembourgeoise : de nombreux toponymes sont aussi des patronymes (Berchem, Bous, Bruck, Roeser…). Ces cas ambigus sont conservés dans les deux index.

Étapes à venir

  • Résolution d'identité : regrouper les mentions en individus (est-ce que les 10 mentions de Johann WEYDERT sont la même personne ?). Validation humaine obligatoire.
  • Lien GEDCOM : relier les individus identifiés aux 14 500 personnes du fichier généalogique Family Historian.
  • Normalisation des lieux : tables de correspondance et coordonnées géographiques pour une carte interactive.
  • Export des données : permettre le téléchargement des données structurées (CSV, JSON) pour chaque document.
  • Production en cours : traitement des 25 documents ODL restants, lancement des 13 notaires restants en production répertoire vision.

Crédits et sources

Ce projet n'est rendu possible que grâce à la mise à disposition, par les Archives Nationales du Luxembourg (ANLux), d'un volume considérable de documents d'archives numérisés.

  • Transcription : Transkribus (READ-COOP), modèle Text Titan (CER < 3 %)
  • Analyse, traduction et codage : Claude (Anthropic) — Opus et Sonnet
  • Vérification du code : ChatGPT (OpenAI) et Gemini (Google)
  • Index des notaires : relevé Wiltgen (2020)
  • Conception et recherche : Olivier Marquet (nepos.be)

Les données sont publiées à titre non commercial, en vue de recherches généalogiques et historiques.