CATIE-AQ/piaf_fr_prompt_qa
收藏piaf_fr_prompt_qa 数据集概述
基本信息
- 语言: 法语
- 许可证: MIT
- 数据规模: 100K<n<1M
- 任务类别: 问答
- 标签: DFP, french prompts
- 标注创建者: found
- 语言创建者: found
- 多语言性: 单语种
- 源数据集: etalab-ia/piaf
数据集详情
- 名称: piaf_fr_prompt_qa
- 概述: 该数据集是 Dataset of French Prompts (DFP) 的一个子集,包含 387,408 条数据,适用于问答任务。原始数据来自 PIAF 数据集,并增加了 FrenchQA 数据集中的问题,格式为 SQUAD 2.0。通过应用一系列提示,构建了输入和目标列,以获得与 xP3 数据集相同的格式。
提示列表
- 数量: 42 个提示
- 逻辑: 提示采用直陈式,包括 tutoiement 和 vouvoiement 形式。
数据集划分
- 训练集: 387,408 条样本
- 验证集: 无
- 测试集: 无
使用方法
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/piaf_fr_prompt_qa")
引用
原始数据
@InProceedings{keraron-EtAl:2020:LREC, author = {Keraron, Rachel and Lancrenon, Guillaume and Bras, Mathilde and Allary, Frédéric and Moyse, Gilles and Scialom, Thomas and Soriano-Morales, Edmundo-Pavel and Staiano, Jacopo}, title = {Project PIAF: Building a Native French Question-Answering Dataset}, booktitle = {Proceedings of The 12th Language Resources and Evaluation Conference}, month = {May}, year = {2020}, address = {Marseille, France}, publisher = {European Language Resources Association}, pages = {5483--5492}, url = {https://www.aclweb.org/anthology/2020.lrec-1.673} }
本数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}




