five

CATIE-AQ/universal_dependencies_fr_spoken_fr_prompt_pos

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/universal_dependencies_fr_spoken_fr_prompt_pos
下载链接
链接失效反馈
官方服务:
资源简介:
**universal_dependencies_fr_spoken_fr_prompt_pos** 是法语提示数据集(DFP)的一个子集,包含58,926行数据,适用于词性标注任务。原始数据来自Universal Dependencies中的法语口语部分,并通过应用21个提示来构建输入和目标列,使其格式与xP3数据集一致。数据集分为训练集(24,507个样本)、验证集(19,089个样本)和测试集(15,330个样本)。
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

数据集名称: universal_dependencies_fr_spoken_fr_prompt_pos

数据集来源: 该数据集是Dataset of French Prompts (DFP)的一个子集。

数据集大小: 包含58,926行数据。

数据集用途: 用于词性标注任务。

原始数据来源: 来自universal_dependencies数据集中的法语口语部分。

数据集构建方式: 通过应用一系列提示(prompts)来构建输入和目标列,以达到与xP3数据集相同的格式。

数据集特征

语言: 法语(French)

多语言性: 单语种(monolingual)

许可证: CC BY-SA 4.0

数据集规模: 10K<n<100K

任务类别: 词元分类(token-classification)

标签: pos, DFP, french prompts

注释创建者: 发现(found)

语言创建者: 发现(found)

数据集分割

  • train: 24,507样本
  • valid: 19,089样本
  • test: 15,330样本

如何使用数据集

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/universal_dependencies_fr_spoken_fr_prompt_pos")

引用信息

原始数据

@inproceedings{nivre-etal-2020-universal, title = "{U}niversal {D}ependencies v2: An Evergrowing Multilingual Treebank Collection", author = "Nivre, Joakim and de Marneffe, Marie-Catherine and Ginter, Filip and Haji{v{c}}, Jan and Manning, Christopher D. and Pyysalo, Sampo and Schuster, Sebastian and Tyers, Francis and Zeman, Daniel", booktitle = "Proceedings of the Twelfth Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2020.lrec-1.497", pages = "4034--4043", language = "English", ISBN = "979-10-95546-34-4", }

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023, author = { {Centre Aquitain des Technologies de lInformation et Electroniques} }, title = { DFP (Revision 1d24c09) }, year = 2023, url = { https://huggingface.co/datasets/CATIE-AQ/DFP }, doi = { 10.57967/hf/1200 }, publisher = { Hugging Face } }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作