five

CATIE-AQ/universal_dependencies_fr_gsd_fr_prompt_pos

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/universal_dependencies_fr_gsd_fr_prompt_pos
下载链接
链接失效反馈
官方服务:
资源简介:
universal_dependencies_fr_gsd_fr_prompt_pos数据集是法语提示数据集(DFP)的一个子集,包含343,161行数据,用于词性标注任务。数据来源于universal_dependencies数据集中的法语gsd部分,并通过应用一系列提示来构建输入和目标列,以匹配xP3数据集的格式。数据集中使用了21种不同的提示,这些提示以指示性时态、tutoiement和vouvoiement形式提出。数据集分为训练集、验证集和测试集,分别包含303,429、30,996和8,736个样本。

universal_dependencies_fr_gsd_fr_prompt_pos数据集是法语提示数据集(DFP)的一个子集,包含343,161行数据,用于词性标注任务。数据来源于universal_dependencies数据集中的法语gsd部分,并通过应用一系列提示来构建输入和目标列,以匹配xP3数据集的格式。数据集中使用了21种不同的提示,这些提示以指示性时态、tutoiement和vouvoiement形式提出。数据集分为训练集、验证集和测试集,分别包含303,429、30,996和8,736个样本。
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

universal_dependencies_fr_gsd_fr_prompt_pos 是一个特定子集,源自 Dataset of French Prompts (DFP)。该数据集包含 343,161 行数据,专为词性标注任务设计。原始数据来自 universal_dependencies 数据集的法国 gsd 分割部分。通过应用一系列提示(见下文),构建了输入和目标列,以达到与 xP3 数据集相同的格式。

数据集特征

  • 语言: 法语
  • 许可证: CC BY-SA 4.0
  • 大小: 100K<n<1M
  • 任务类别: 词性标注
  • 标签: pos, DFP, french prompts
  • 多语言性: 单语种
  • 源数据集: universal_dependencies_fr_gsd

提示列表

数据集使用了21个提示,这些提示设计为指示性语气,采用“你”和“您”的形式。例如:

Extraire les classes des mots du texte suivant : +text,
Extrais les classes des mots du texte suivant : +text,
Extrayez les classes des mots du texte suivant : +text,
...

数据集分割

  • 训练集: 303,429 样本
  • 验证集: 30,996 样本
  • 测试集: 8,736 样本

如何使用

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/universal_dependencies_fr_gsd_fr_prompt_pos")

许可证

数据集遵循 CC BY-SA 4.0 许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作