five

Jeu de données d’évaluation de la génération automatique de données structurées — Projet ArTeC/BnF 2025 "Les femmes dans les métiers du cinéma français"

收藏
DataCite Commons2026-04-24 更新2026-05-04 收录
下载链接:
https://nakala.fr/10.34847/nkl.e7bcd9nn
下载链接
链接失效反馈
官方服务:
资源简介:
JEU DE DONNÉES D'ÉVALUATION DE LA GÉNÉRATION AUTOMATIQUE DE DONNÉES STRUCTURÉES — PROJET ARTEC/BNF 2025 "LES FEMMES DANS LES MÉTIERS DU CINÉMA FRANÇAIS" Ce dépôt rassemble l'ensemble des ressources associées à l'évaluation de la génération automatique de données structurées à partir d'annuaires du cinéma français. Il inclut les instructions d'annotation, les données brutes issues du traitement automatique, les données corrigées manuellement, ainsi que les scripts et résultats d'évaluation. Le jeu de données comprend 4309 entrées extraites de 96 pages du document source, réparties en 1489 personnes morales et 2820 personnes physiques (dont 661 femmes, 1159 hommes et 1000 indéterminés). À PROPOS DU PROJET Ces données sont produites dans le cadre du projet ArTeC/BnF "Les femmes dans les métiers du cinéma français" (https://eur-artec.fr/projets/les-femmes-dans-les-metiers-du-cinema-francais/) piloté par Tifenn Martinot-Lagarde (Bibliothèque nationale de France). L'objectif de la production de ces données est de permettre d'identifier et de dénombrer les femmes dans les métiers du cinéma sur la période concernée. DONNÉES SOURCES Les données sont extraites du document suivant : > Annuaire général de la cinématographie et des industries qui s'y rattachent, Paris, Cinémagazine, dir. Jean Pascal, 1927 > Bibliothèque nationale de France, département Sciences et techniques, 4-V-11245 Catalogue BnF : http://catalogue.bnf.fr/ark:/12148/cb326979419 Lien Gallica : https://gallica.bnf.fr/ark:/12148/bd6t543024772 Elles concernent en particulier la plage de pages suivantes : > p. 23 - 134 : Liste alphabétique et index téléphonique du monde cinématographique et des professions s'y rattachant > Liste générale toutes catégories confondues, mention des métiers en italique ; inclut aussi les sociétés – peut permettre les recoupements de noms/prénoms et un relevé plus large en termes de métiers (y compris publicistes, fournisseurs, etc) Cette source a été identifiée par Tifenn Martinot-Lagarde (Bibliothèque nationale de France). MÉTHODE DE PRODUCTION DES DONNÉES STRUCTURÉES Elles ont été produites avec l'outil Corpusense (https://mezanno.xyz/corpusense/) du projet Mezanno (https://mezanno.xyz/) puis annotées manuellement entre juillet et septembre 2025. Les données ont été extraites par Joseph Chazalon, Edwin Carlinet et Jonathan Perrinet (Laboratoire de Recherche de l'EPITA). La chaîne de traitement utilisée a été la suivante : À partir des images en résolution haute des sources disponibles sur Gallica, le processus suivant a été suivi : 1. La zone contenant le texte principal de chaque page a été sélectionnée manuellement. 2. Le texte de chaque zone a été transcrit à l'aide du système PERO OCR (https://github.com/DCGM/pero-ocr). 3. Le texte brut a ensuite été "traduit" en une représentation structurée à l'aide du modèle génératif ministral-8b-2410 (https://huggingface.co/mistralai/Ministral-8B-Instruct-2410) de Mistral.ai (https://mistral.ai/) utilisé via l'API commerciale, en utilisant un prompt et un modèle de données de sortie particuliers pour contraindre la génération de données. Un modèle de données visant à guider le modèle génératif a donc été défini au préalable. Exemple de texte extrait par l'OCR : Adda, Directeur de Filmograph, 47, rue de Bagneux, Montrouge (Seine). Aenesmann Frères, Palais de la Mutualité, 32, rue Saint-Martin (3e). Ader (Jeanne), Artiste, 96, avenue Niel (17e). Exemple de sortie produite par le modèle génératif (format JSON simplifié) : [ { "nom": "Adda", "prénom": "", "activité": "Directeur de Filmograph", "adresse": "47, rue de Bagneux, Montrouge (Seine)", "type": "physique", "genre": "I" }, { "nom": "Aenesmann Frères", "prénom": "", "activité": "", "adresse": "Palais de la Mutualité, 32, rue Saint-Martin (3e)", "type": "morale", "genre": "X" }, { "nom": "Ader", "prénom": "Jeanne", "activité": "Artiste", "adresse": "96, avenue Niel (17e)", "type": "physique", "genre": "F" }, ... ] Versions des logiciels et modèles utilisés : - PERO OCR - code : https://github.com/DCGM/pero-ocr?rev=57c07b1d192859bc4ec71859769d4f624c50dbfc - modèles : pero_eu_cz_print_newspapers_2022-09-26 (https://nextcloud.fit.vutbr.cz/s/NtAbHTNkZFpapdJ) - Mistal - modèle : Ministral-8B-Instruct-2410 (https://huggingface.co/mistralai/Ministral-8B-Instruct-2410) CONTENU DE CE DÉPÔT Protocole d'annotation Ce dossier contient les instructions fournies aux annotateurs afin de guider leur travail. Une passe d'homogénéisation des résultats a été effectuée afin de limiter les variations personnelles et garantir l'application des règles générales. Deux fichiers sont fournis : - "Protocole d'annotation-correction des données (version dépôt).pdf" : les instructions fournies aux utilisateurs (version modifiée pour supprimer les références à des ressources obsolètes) - "Exemple d'annotation de la vue f121.mp4" : une vidéo illustrant (à vitesse réelle) le travail de correction pour une vue particulière Malgré nos efforts, certains cas sont restés ambigus et n'ont pas fait l'objet d'un consensus clair. L'expressivité limitée du modèle de données et l'ambiguïté intrinsèque de certaines entrées en sont les principales causes. Données brutes et modèle de données Ce dossier contient les données produites au cours de cette campagne. Les fichiers suivants sont fournis : - "liste_alphabetique_cinema_professions - original generated data - annuaire_cinema_1927_v20250721.csv" : données originales produites avec la chaîne de traitement automatique - "liste_alphabetique_cinema_professions (version dépôt).xlsx" : document contenant les données corrigées par les annotateurs, ainsi que les informations de suivi du travail de vérification. Les références aux ressources distantes ont été supprimées ainsi que les informations personnelles des annotateurs. Les feuilles de ce document sont également exportées séparément dans les fichiers suivants pour un usage plus simple. - "liste_alphabetique_cinema_professions (version dépôt) - Aide.pdf" : Aide générale sur la démarche, pointant vers le protocole d'annotation. - "liste_alphabetique_cinema_professions (version dépôt) - annuaire_cinema_1927_v20250721 export-20251104-1900.csv" : Données corrigées — il s'agit de la base de données de référence. - "liste_alphabetique_cinema_professions (version dépôt) - paramètres.pdf" : Valeurs possibles pour les différentes colonnes. - "liste_alphabetique_cinema_professions (version dépôt) - stats.pdf" : Quelques statistiques et éléments de suivi de l'avancement du travail collaboratif de vérification. - "modèle_données.json" : Contient les instructions (prompt) et le modèle de données de sortie utilisés pour guider (et contraindre) le modèle. Fichiers d'évaluation — fichier "evaluation.zip" Cette archive contient les fichiers d'évaluation utilisés pour estimer la performance de la génération de données structurées à partir de la transcription textuelle brute des annuaires. Elle contient les fichiers suivants : - "basic-evaluation.ipynb" : Notebook Jupyter contenant le code et les sorties ayant servi à évaluer les prédictions automatiques. - "pyproject.toml" et "uv.lock" : Décrivent les dépendances Python nécessaires au fonctionnement du notebook. Ils peuvent être utilisés avec l'outil de gestion de paquets Python uv (https://docs.astral.sh/uv/) pour reproduire les résultats. Dans la mesure où les prédictions automatiques du système sous test ont été manuellement annotées a posteriori, il n'y a pas de problème d'alignement entre les données prédites et les données de référence. Ceci simplifie largement l'évaluation, qui peut se réduire à un simple comptage des éléments correspondants à un premier niveau. L'analyse rapide proposée dans le notebook met en lumière les faits suivants : - 0,88% des entrées dans les données de référence (produites par les annotateurs) contiennent des éléments incertains. Ces entrées (34 sur 4309) sont écartées dans les évaluations suivantes qui ne porteront que sur les 4265 entrées non ambiguës. - 0,94% des entrées attendues dans les données de référence sont manquantes dans les données prédites. Les étapes de sélection des zones textuelles et de transcription sont, au moins partiellement, la cause de ces omissions. - 0,07% des entrées contenues dans les données prédites ne correspondent pas à des entrées que les annotateurs auraient créées. Il s'agit toutefois de cas marginaux (3 entrées au total), liés à des dissociations d'entrées ou à des erreurs de détection du nom. Aucun élément n'a été "inventé" dans le sens où le contenu textuel utilisé correspond bien à des éléments présents dans le texte d'origine. - Parmi les 98,99% d'entrées bien alignées (4228 sur 4265), 42,55% n'ont nécessité aucune correction de la part des annotateurs. Les principales sources de différences sont la colonne "prénom" (distance Levenshtein normalisée moyenne de 22%) et une interprétation différente de l'adresse — multiple lieux, indication de l'employeur… - Le genre est inféré avec une exactitude (accuracy) de 94%. - Le type de personne (morale/physique) est inféré avec une exactitude (accuracy) de 97%. REMERCIEMENTS Les personnes suivantes ont contribué au travail d'annotation : - Carlin Marie (Bibliothèque nationale de France, DCA) - Chazalon Joseph (EPITA) - Cretin Sébastien (Bibliothèque nationale de France, DSC) - de Pastre Béatrice (Centre nationale du cinéma et de l'image animée) - Eloi Catherine (Bibliothèque nationale de France, DCA) - Ferreira Alban (Bibliothèque nationale de France, SVM) - Fleckinger Hélène (Univ. Paris 8) - Garambois Marie (Cinémathèque française) - Juan Myriam (Univ. Caen Normandie) - Keller Hélène (Bibliothèque nationale de France, ASP) - Martinot-Lagarde Tifenn (Bibliothèque nationale de France, SVM) - Moustacchi Dominique (Centre nationale du cinéma et de l'image animée) - Perrinet Jonathan (EPITA) - Poullaouec Maëlle (Univ. Rennes 2) - Refort Coraline (Univ. Sorbonne Nouvelle) - Rotolo Emeline (Archives nationales) - Sidhu Maya (Univ. Berkeley (USA)) - Sorin Cécile (Univ. Paris 8) - Spiers Aurore (Univ. Texas A.M. (USA)) - Touil Rime (Bibliothèque nationale de France, SVM) LICENCE D'UTILISATION DES DONNÉES Les fichiers contenus dans ce dépôt sont distribués selon les termes du contrat de licence Creative Common Attribution 4.0 International (https://creativecommons.org/licenses/by/4.0/deed.fr). Voyez le fichier LICENCE pour plus de détails. CONSIDÉRATIONS ÉTHIQUES - Données à caractère personnel : Les données produites révèlent des données à caractère personnel (nom, adresse, numéro de téléphone) qui ont une valeur historique et concernent très majoritairement (voire intégralement) des personnes décédées à ce jour. Nous avons pris soin de sélectionner des données provenant de sources anciennes pour minimiser les désagréments potentiels. Un plan de gestion des données plus précis doit être établi. - Impact écologique des traitements : Nous avons réalisé des expériences à petite échelle à l'aide de modèles de petite taille ou sur des jeux de données de petite taille. L'utilisation de modèles génératifs en première intention n'exclut pas la possibilité de spécialiser rapidement des modèles légers pour réaliser les tâches visées. - Véracité et vérifiabilité des informations : Les modèles génératifs "traduisent" les contenus d'un format vers un autre, et peuvent omettre, ajouter et remplacer des informations. L'interprétation des données produites doit être faite avec prudence. Nous travaillons à évaluer précisément la fiabilité des données produite et leur utilisabilité au regard des objectifs du projet.
提供机构:
NAKALA - https://nakala.fr (Huma-Num - CNRS)
创建时间:
2025-12-09
二维码
社区交流群
二维码
科研交流群
商业服务