CATIE-AQ/newsquadfr_fr_prompt_question_generation_with_answer_and_context
收藏数据集概述
基本信息
- 语言: 法语
- 许可: CC BY-NC-SA 4.0
- 数据规模: 10K<n<100K
- 任务类别: 文本生成
- 标签: DFP, french prompts
- 注释创建者: found
- 语言创建者: found
- 多语言性: 单语种
- 源数据集: newsquadfr
数据集详情
- 名称: newsquadfr_fr_prompt_question_generation_with_answer_and_context
- 来源: 来自Dataset of French Prompts (DFP)的子集
- 数据量: 包含88,410行
- 任务: 用于问题生成(带答案和上下文)任务
- 原始数据: 来自newsquadfr数据集,并增加了FrenchQA数据集中的SQUAD 2.0格式问题
- 输入格式: 通过应用一系列提示构建输入和目标列,格式与xP3数据集相同
提示列表
- 数量: 21个提示
- 逻辑: 使用直陈式,使用“你”和“您”的形式
示例提示
Déterminer la question qui aurait pu être posée pour obtenir la réponse suivante dans le contexte donné.
Contexte : "+context+";
Réponse : "+answer+";
Question :,
Détermine la question que tu aurais pu poser pour obtenir la réponse suivante dans le contexte donné.
Contexte : "+context+";
Réponse : "+answer+";
Question :,
Déterminez la question que vous auriez pu poser pour obtenir la réponse suivante dans le contexte donné.
Contexte : "+context+";
Réponse : "+answer+";
Question :,
...
数据集划分
- 训练集: 69,300个样本
- 验证集: 19,100个样本
- 测试集: 无
使用方法
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/newsquadfr_fr_prompt_question_generation_with_answer_and_context")
引用
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}
许可
CC BY-NC-SA 4.0



