modele-coreference-fr-litbank

Name: modele-coreference-fr-litbank
Creator: ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
Published: 2026-02-10 21:51:50
License: 暂无描述

DataCite Commons2026-02-10 更新2026-05-04 收录

下载链接：

https://www.ortolang.fr/market/item/modele-coref-fr-litb/v1

下载链接

链接失效反馈

官方服务：

资源简介：

Ce modèle est un modèle CamemBERT [Martin et al., 2019] fine-tuné sur les tâches :Détection des mentions : une mention est une expression référentielle (groupe nominal, nom propre ou pronom) faisant référence à un personnage (PER), un lieu (LOC), une installation (FAC)... selon les définitions données par [Bamman et al., 2019].Pour pouvoir détecter des mentions imbriquées, nous utilisons un schéma d'étiquetage BIOES (Beginning, Inside, Outside, Ending, Single-word). L'étiquette attribuée à chaque mot dépend donc du type de la mention, mais également de la position du mot dans celle-ci. L'étiquette prédite par le modèle peut alors ressembler à "O", "B-PER", "I-PER", "S-PER", "E-PER", "B-LOC"...Résolution de coréférence : Une chaîne de coréférence, annotée suivant la définition dans Democrat [Landragin et al., 2021], associe entre elles les mentions référant à la même entité, par exemple, au même personnage. Chaque mention est donc annotée par un identifiant indiquant l'entité à laquelle elle réfère.Données :Le modèle a été entraîné sur le corpus fr-litbank (https://github.com/lattice-8094/fr-litbank). Il s'agit des 10000 premiers mots de 15 romans des XIXe et XXe siècles, annotées en mentions et en chaînes de coréférence.Evaluation :En termes de mentions, ce modèle atteint un score f1 de 90,37% (précision 90,65% - rappel 90,08%)En termes de résolution de coréférence: - le score MUC est de 85,08% (précision 95,06% - rappel 85,10%)- le score BLANC est de 69,22% (précision 85,81% - rappel 62,99%)- le score LEA est de 63,58% (précision 64,73% - rappel 62,47%)Utilisation :python modeling/run_coref_lit_no_trainer.py --data_dir lt;dossier_donneesgt; --output_dir lt;dossier_de_sortiegt; --model_name_or_path . --inferenceremplacer :- lt;dossier_donneesgt; par le dossier contenant les fichier txt à analyser- lt;dossier_de_sortiegt; par le dossier de sortie désiré

提供机构：

ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr

创建时间：

2026-02-10

5,000+

优质数据集

54 个

任务类型

进入经典数据集