five

CATIE-AQ/universal_dependencies_fr_partut_fr_prompt_pos

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/universal_dependencies_fr_partut_fr_prompt_pos
下载链接
链接失效反馈
官方服务:
资源简介:
universal_dependencies_fr_partut_fr_prompt_pos数据集是法语提示数据集(DFP)的一个子集,专门用于词性标注任务。该数据集包含21,420行数据,来源于universal_dependencies数据集中的法语部分,并应用了21种提示来构建输入和目标列,以匹配xP3数据集的格式。数据集分为训练集(16,863个样本)、验证集(2,247个样本)和测试集(2,310个样本)。

universal_dependencies_fr_partut_fr_prompt_pos数据集是法语提示数据集(DFP)的一个子集,专门用于词性标注任务。该数据集包含21,420行数据,来源于universal_dependencies数据集中的法语部分,并应用了21种提示来构建输入和目标列,以匹配xP3数据集的格式。数据集分为训练集(16,863个样本)、验证集(2,247个样本)和测试集(2,310个样本)。
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

数据集名称

universal_dependencies_fr_partut_fr_prompt_pos

数据集来源

该数据集是 Dataset of French Prompts (DFP) 的一个子集。

数据集规模

包含 21,420 条数据,适用于词性标注任务。

数据集构成

原始数据来自 universal_dependencies 数据集,仅保留了法语 parput 分割部分。随后应用了一系列提示(见下文)来构建输入和目标列,以获得与 xP3 数据集相同的格式。

提示列表

该数据集使用了 21 个提示,这些提示采用直陈式、第二人称单数和第二人称复数的形式。

提示示例

Extraire les classes des mots du texte suivant : +text,
Extrais les classes des mots du texte suivant : +text,
Extrayez les classes des mots du texte suivant : +text,
Isoler les classes des mots du texte suivant : +text,
Isole les classes des mots du texte suivant : +text,
Isolez les classes des mots du texte suivant : +text,
Dégager les classes des mots dans le texte : +text,
Dégage les classes des mots dans le texte : +text,
Dégagez les classes des mots dans le texte : +text,
Générer les classes des mots issues du texte suivant : +text,
Génère les classes des mots issues du texte suivant : +text,
Générez les classes des mots issues du texte suivant : +text,
Trouver les classes des mots du texte : +text,
Trouve les classes des mots du texte : +text,
Trouvez les classes des mots du texte : +text,
Repérer les classes des mots présentes dans le texte suivant : +text,
Repère les classes des mots présentes dans le texte suivant : +text,
Repérez les classes des mots présentes dans le texte suivant : +text,
Indiquer les classes des mots du texte :+text,
Indique les classes des mots du texte : +text,
Indiquez les classes des mots du texte : +text

提示特征

在上述提示列表中,texttargets 是从以下数据构建的:

fr_partut = load_dataset(universal_dependencies, fr_partut)

text

fr_partut[train][tokens] = list(map(lambda i: .join(fr_partut[train][tokens][i]), range(len(fr_partut[train][tokens]))))

targets

fr_partut[train][upos] = list(map(lambda x: x.replace("[","").replace("]","").replace(17,AUX).replace(16,VERB).replace(15,INTJ).replace(14,ADV).replace(13,_).replace(12,X).replace(11,PRON).replace(10,PROPN).replace(9,CCONJ).replace(8,DET).replace(7,PART).replace(6,ADJ).replace(5,SCONJ).replace(4,SYM).replace(3,NUM).replace(2,ADP).replace(1,PUNCT).replace(0,NOUN), map(str,fr_partut[train][upos])))

数据集分割

  • train:16,863 条样本
  • valid:2,247 条样本
  • test:2,310 条样本

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/universal_dependencies_fr_partut_fr_prompt_pos")

许可证

CC BY-SA 4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作