CATIE-AQ/multinerd_fr_prompt_ner
收藏数据集概述
基本信息
- 名称: multinerd_fr_prompt_ner
- 语言: 法语
- 许可: 未知
- 数据量: 1M<n<10M
- 任务类别: 命名实体识别 (token-classification)
- 标签: ner, DFP, french prompts
- 标注创建者: 发现 (found)
- 语言创建者: 发现 (found)
- 多语言性: 单语 (monolingual)
- 源数据集: multinerd
详细描述
- 数据来源: 该数据集是 Dataset of French Prompts (DFP) 的一个子集。
- 数据量: 包含 3,699,885 行数据,用于命名实体识别任务。
- 原始数据: 原始数据(无提示)来自 Tedeschi 等人的数据集 multinerd,仅保留了法语部分。
- 提示列表: 应用了 21 个提示,以构建输入和目标列,格式与 Muennighoff 等人的 xP3 数据集相同。
提示示例
Extraire les entités nommées du texte suivant : +text, Extrais les entitées nommées du texte suivant : +text, Extrayez les entitées nommées du texte suivant : +text, ... Indiquez les entitées nommées du texte : +text
数据分割
- 训练集: 3,699,885 样本
- 验证集: 无
- 测试集: 无
使用方法
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/multinerd_fr_prompt_ner")
引用
原始数据
@inproceedings{tedeschi-navigli-2022-multinerd, title = "{M}ulti{NERD}: A Multilingual, Multi-Genre and Fine-Grained Dataset for Named Entity Recognition (and Disambiguation)", author = "Tedeschi, Simone and Navigli, Roberto", booktitle = "Findings of the Association for Computational Linguistics: NAACL 2022", month = jul, year = "2022", address = "Seattle, United States", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.findings-naacl.60", doi = "10.18653/v1/2022.findings-naacl.60", pages = "801--812", }
本数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023, author = { {Centre Aquitain des Technologies de lInformation et Electroniques} }, title = { DFP (Revision 1d24c09) }, year = 2023, url = { https://huggingface.co/datasets/CATIE-AQ/DFP }, doi = { 10.57967/hf/1200 }, publisher = { Hugging Face } }
许可
未知



