CATIE-AQ/wikineural_fr_prompt_ner
收藏wikineural_fr_prompt_ner 数据集概述
基本信息
- 语言: 法语
- 许可: 未知
- 数据规模: 1M<n<10M
- 任务类别: 词性标注
- 标签: NER, DFP, 法语提示
- 注释创建者: 发现
- 语言创建者: 发现
- 多语言性: 单语种
- 源数据集: wikineural
数据集详情
- 名称: wikineural_fr_prompt_ner
- 来源: 法国提示数据集 (DFP) 的子集
- 数据量: 包含 2,647,638 行
- 任务: 命名实体识别
- 原始数据: 来自 Tedeschi 等人的 wikineural 数据集,仅保留法语部分
- 提示列表: 21 个提示,采用直陈式、第二人称单数和第二人称复数形式
提示示例
Extraire les entités nommées du texte suivant : +text, Extrais les entités nommées du texte suivant : +text, Extrayez les entités nommées du texte suivant : +text, ... Indiquez les entités nommées du texte : +text
数据分割
- 训练集: 2,116,800 样本
- 验证集: 264,600 样本
- 测试集: 266,238 样本
使用方法
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/wikineural_fr_prompt_ner")
引用
原始数据
@inproceedings{tedeschi-etal-2021-wikineural-combined, title = "{W}iki{NE}u{R}al: {C}ombined Neural and Knowledge-based Silver Data Creation for Multilingual {NER}", author = "Tedeschi, Simone and Maiorca, Valentino and Campolungo, Niccol{`o} and Cecconi, Francesco and Navigli, Roberto", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021", month = nov, year = "2021", address = "Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-emnlp.215", doi = "10.18653/v1/2021.findings-emnlp.215", pages = "2521--2533", }
本数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}
许可
未知



