CATIE-AQ/wikiner_fr_prompt_ner
收藏数据集概述:wikiner_fr_prompt_ner
基本信息
- 语言: 法语 (fr)
- 许可证: 未知
- 大小: 1M<n<10M
- 任务类别: 分词分类
- 标签: 命名实体识别 (NER), DFP, 法语提示
- 多语言性: 单语
- 来源数据集: wikiner
数据集描述
wikiner_fr_prompt_ner 是 Dataset of French Prompts (DFP) 的一个子集,包含 2,534,322 行数据,用于命名实体识别任务。原始数据来自 Nothman 等人的 wikiner 数据集,仅保留了法语部分。通过应用一系列提示,构建了输入和目标列,以达到与 xP3 数据集相同的格式。
提示列表
数据集使用了21个提示,这些提示采用直陈式、你称和您称的形式。
数据集分割
train: 2,534,322 样本- 无
valid分割 - 无
test分割
如何使用
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/wikiner_fr_prompt_ner")
引用信息
原始数据
@article{NOTHMAN2013151,
title = {Learning multilingual named entity recognition from Wikipedia},
journal = {Artificial Intelligence},
volume = {194},
pages = {151-175},
year = {2013},
note = {Artificial Intelligence, Wikipedia and Semi-Structured Resources},
issn = {0004-3702},
doi = {https://doi.org/10.1016/j.artint.2012.03.006},
url = {https://www.sciencedirect.com/science/article/pii/S0004370212000276},
author = {Joel Nothman and Nicky Ringland and Will Radford and Tara Murphy and James R. Curran}, }
本数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}



