CATIE-AQ/newsquadfr_fr_prompt_context_generation_with_answer
收藏数据集概述
基本信息
- 名称: newsquadfr_fr_prompt_context_generation_with_answer
- 语言: 法语
- 许可: CC BY-NC-SA 4.0
- 数据量: 101,040 条记录
- 任务类别: 文本生成
- 标签: DFP, french prompts
- 多语言性: 单语种
- 源数据集: newsquadfr
数据集描述
该数据集是 Dataset of French Prompts (DFP) 的一个子集,包含 101,040 条记录,适用于上下文生成(带答案)任务。原始数据来自 newsquadfr 数据集,并通过 FrenchQA 数据集中的 SQUAD 2.0 格式问题进行了增强。通过应用一系列提示,构建了输入和目标列,以获得与 xP3 数据集相同的格式。
提示列表
该数据集使用了 24 个提示,这些提示采用直陈语气,包括“你”和“您”两种称呼形式。以下是部分提示示例:
- Étant donné la réponse "+ answer+", écrire un texte explicatif. Texte :
- Étant donné la réponse "+ answer+", écris un texte explicatif. Texte :
- Étant donné la réponse "+ answer+", écrivez un texte explicatif. Texte :
数据集划分
train: 79,200 条样本valid: 21,800 条样本- 无
test划分
使用方法
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/newsquadfr_fr_prompt_context_generation_with_answer")
引用
原始数据
Hugging Face repository: https://huggingface.co/datasets/lincoln/newsquadfr
该数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}



