five

CATIE-AQ/wikineural_fr_prompt_ner

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/wikineural_fr_prompt_ner
下载链接
链接失效反馈
官方服务:
资源简介:
wikineural_fr_prompt_ner是一个针对命名实体识别任务的单语种法语数据集,包含2647638行数据。它基于wikineural数据集的法语部分,并使用21种不同的提示语来构建数据格式。数据集分为训练集、验证集和测试集,分别包含2116800、264600和266238个样本。

wikineural_fr_prompt_ner is a monolingual French dataset for named entity recognition (NER) task, containing 2,647,638 rows of data. It is based on the French part of the wikineural dataset and uses 21 different prompts to construct the data format. The dataset is split into training, validation, and test sets with 2,116,800, 264,600, and 266,238 samples respectively.
提供机构:
CATIE-AQ
原始信息汇总

wikineural_fr_prompt_ner 数据集概述

基本信息

  • 语言: 法语
  • 许可: 未知
  • 数据规模: 1M<n<10M
  • 任务类别: 词性标注
  • 标签: NER, DFP, 法语提示
  • 注释创建者: 发现
  • 语言创建者: 发现
  • 多语言性: 单语种
  • 源数据集: wikineural

数据集详情

  • 名称: wikineural_fr_prompt_ner
  • 来源: 法国提示数据集 (DFP) 的子集
  • 数据量: 包含 2,647,638 行
  • 任务: 命名实体识别
  • 原始数据: 来自 Tedeschi 等人的 wikineural 数据集,仅保留法语部分
  • 提示列表: 21 个提示,采用直陈式、第二人称单数和第二人称复数形式

提示示例

Extraire les entités nommées du texte suivant : +text, Extrais les entités nommées du texte suivant : +text, Extrayez les entités nommées du texte suivant : +text, ... Indiquez les entités nommées du texte : +text

数据分割

  • 训练集: 2,116,800 样本
  • 验证集: 264,600 样本
  • 测试集: 266,238 样本

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/wikineural_fr_prompt_ner")

引用

原始数据

@inproceedings{tedeschi-etal-2021-wikineural-combined, title = "{W}iki{NE}u{R}al: {C}ombined Neural and Knowledge-based Silver Data Creation for Multilingual {NER}", author = "Tedeschi, Simone and Maiorca, Valentino and Campolungo, Niccol{`o} and Cecconi, Francesco and Navigli, Roberto", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021", month = nov, year = "2021", address = "Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-emnlp.215", doi = "10.18653/v1/2021.findings-emnlp.215", pages = "2521--2533", }

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可

未知

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作