five

CATIE-AQ/multinerd_fr_prompt_ner

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/multinerd_fr_prompt_ner
下载链接
链接失效反馈
官方服务:
资源简介:
multinerd_fr_prompt_ner是一个基于Dataset of French Prompts (DFP)的子集,专为命名实体识别任务设计,包含3699885条记录。该数据集使用了来自multinerd数据集的法国部分的数据,并添加了一系列提示语以形成输入和目标列。数据集仅包含训练集,没有验证集和测试集。

multinerd_fr_prompt_ner is a subset of the Dataset of French Prompts (DFP), designed for the name entity recognition task, containing 3,699,885 records. The dataset uses data from the French part of the multinerd dataset, and a series of prompts have been added to form input and target columns. The dataset includes only a training set, without validation and test sets.
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

基本信息

  • 名称: multinerd_fr_prompt_ner
  • 语言: 法语
  • 许可: 未知
  • 数据量: 1M<n<10M
  • 任务类别: 命名实体识别 (token-classification)
  • 标签: ner, DFP, french prompts
  • 标注创建者: 发现 (found)
  • 语言创建者: 发现 (found)
  • 多语言性: 单语 (monolingual)
  • 源数据集: multinerd

详细描述

  • 数据来源: 该数据集是 Dataset of French Prompts (DFP) 的一个子集。
  • 数据量: 包含 3,699,885 行数据,用于命名实体识别任务。
  • 原始数据: 原始数据(无提示)来自 Tedeschi 等人的数据集 multinerd,仅保留了法语部分。
  • 提示列表: 应用了 21 个提示,以构建输入和目标列,格式与 Muennighoff 等人的 xP3 数据集相同。

提示示例

Extraire les entités nommées du texte suivant : +text, Extrais les entitées nommées du texte suivant : +text, Extrayez les entitées nommées du texte suivant : +text, ... Indiquez les entitées nommées du texte : +text

数据分割

  • 训练集: 3,699,885 样本
  • 验证集: 无
  • 测试集: 无

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/multinerd_fr_prompt_ner")

引用

原始数据

@inproceedings{tedeschi-navigli-2022-multinerd, title = "{M}ulti{NERD}: A Multilingual, Multi-Genre and Fine-Grained Dataset for Named Entity Recognition (and Disambiguation)", author = "Tedeschi, Simone and Navigli, Roberto", booktitle = "Findings of the Association for Computational Linguistics: NAACL 2022", month = jul, year = "2022", address = "Seattle, United States", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.findings-naacl.60", doi = "10.18653/v1/2022.findings-naacl.60", pages = "801--812", }

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023, author = { {Centre Aquitain des Technologies de lInformation et Electroniques} }, title = { DFP (Revision 1d24c09) }, year = 2023, url = { https://huggingface.co/datasets/CATIE-AQ/DFP }, doi = { 10.57967/hf/1200 }, publisher = { Hugging Face } }

许可

未知

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作