five

modele-coreference-fr-litbank

收藏
DataCite Commons2026-02-10 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/modele-coref-fr-litb/v1
下载链接
链接失效反馈
官方服务:
资源简介:
Ce modèle est un modèle CamemBERT [Martin et al., 2019] fine-tuné sur les tâches :Détection des mentions : une mention est une expression référentielle (groupe nominal, nom propre ou pronom) faisant référence à un personnage (PER), un lieu (LOC), une installation (FAC)... selon les définitions données par [Bamman et al., 2019].Pour pouvoir détecter des mentions imbriquées, nous utilisons un schéma d'étiquetage BIOES (Beginning, Inside, Outside, Ending, Single-word). L'étiquette attribuée à chaque mot dépend donc du type de la mention, mais également de la position du mot dans celle-ci. L'étiquette prédite par le modèle peut alors ressembler à "O", "B-PER", "I-PER", "S-PER", "E-PER", "B-LOC"...Résolution de coréférence : Une chaîne de coréférence, annotée suivant la définition dans Democrat [Landragin et al., 2021], associe entre elles les mentions référant à la même entité, par exemple, au même personnage. Chaque mention est donc annotée par un identifiant indiquant l'entité à laquelle elle réfère.Données :Le modèle a été entraîné sur le corpus fr-litbank (https://github.com/lattice-8094/fr-litbank). Il s'agit des 10000 premiers mots de 15 romans des XIXe et XXe siècles, annotées en mentions et en chaînes de coréférence.Evaluation :En termes de mentions, ce modèle atteint un score f1 de 90,37% (précision 90,65% - rappel 90,08%)En termes de résolution de coréférence: - le score MUC est de 85,08% (précision 95,06% - rappel 85,10%)- le score BLANC est de 69,22% (précision 85,81% - rappel 62,99%)- le score LEA est de 63,58% (précision 64,73% - rappel 62,47%)Utilisation :python modeling/run_coref_lit_no_trainer.py --data_dir lt;dossier_donneesgt; --output_dir lt;dossier_de_sortiegt; --model_name_or_path . --inferenceremplacer :- lt;dossier_donneesgt; par le dossier contenant les fichier txt à analyser- lt;dossier_de_sortiegt; par le dossier de sortie désiré
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作