CATIE-AQ/fquad_fr_prompt_qa
收藏数据集概述
基本信息
- 名称: fquad_fr_prompt_qa
- 语言: 法语
- 许可: CC BY-NC-SA 3.0
- 大小: 1M<n<10M
- 任务类别: 问答
- 标签: DFP, french prompts
- 注释创建者: found
- 语言创建者: found
- 多语言性: 单语
- 源数据集: fquad
详细描述
fquad_fr_prompt_qa 是 Dataset of French Prompts (DFP) 的一个子集。它包含 2,009,196 行数据,适用于问答任务。原始数据(无提示)来自 dHoffschmidt 等人的数据集 FQuAD,并通过 FrenchQA 数据集中的 SQUAD 2.0 格式问题进行了增强。由于 FQuAD 的许可不允许共享数据,我们仅共享所使用的提示,以便用户可以以与 Muennighoff 等人的 xP3 数据集相同的格式自行重建数据集。
提示列表
该数据集创建了 42 个提示,逻辑包括使用直陈式、使用“你”和“您”的形式。
数据分割
- 训练集: 1,741,404 样本
- 验证集: 267,792 样本
- 无测试集
引用
原始数据
plaintext @ARTICLE{2020arXiv200206071 author = {Martin, dHoffschmidt and Maxime, Vidal and Wacim, Belblidia and Tom, Brendlé}, title = "{FQuAD: French Question Answering Dataset}", journal = {arXiv e-prints}, keywords = {Computer Science - Computation and Language}, year = "2020", month = "Feb", eid = {arXiv:2002.06071}, pages = {arXiv:2002.06071}, archivePrefix = {arXiv}, eprint = {2002.06071}, primaryClass = {cs.CL} }
本数据集
plaintext
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}



