CATIE-AQ/wikiann_fr_prompt_ner
收藏数据集概述
基本信息
- 名称: wikiann_fr_prompt_ner
- 语言: 法语 (fr)
- 许可证: 未知
- 大小: 100K<n<1M
- 任务类别: 词元分类
- 标签: NER, DFP, 法语提示
- 多语言性: 单语
- 来源数据集: wikiann
数据集描述
wikiann_fr_prompt_ner 是 Dataset of French Prompts (DFP) 的一个子集,包含 840,000 行数据,用于命名实体识别任务。原始数据来自 Pan et al. 的 wikiann 数据集,仅保留了法语部分。通过应用一系列提示,构建了输入和目标列,以达到与 xP3 数据集相同的格式。
提示列表
数据集使用了21个提示,这些提示以直陈式、第二人称单数和第二人称复数的形式提出。
数据集分割
train: 420,000 样本valid: 210,000 样本test: 210,000 样本
如何使用
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/wikiann_fr_prompt_ner")
引用信息
原始数据
@inproceedings{pan-etal-2017-cross, title = "Cross-lingual Name Tagging and Linking for 282 Languages", author = "Pan, Xiaoman and Zhang, Boliang and May, Jonathan and Nothman, Joel and Knight, Kevin and Ji, Heng", booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2017", address = "Vancouver, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P17-1178", doi = "10.18653/v1/P17-1178", pages = "1946--1958" }
本数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}



