five

CATIE-AQ/fquad_fr_prompt_qa

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/fquad_fr_prompt_qa
下载链接
链接失效反馈
官方服务:
资源简介:
fquad_fr_prompt_qa数据集是从法语提示数据集(DFP)中提取的一个子集,包含2,009,196行数据,适用于问答任务。原始数据来源于FQuAD数据集,并通过SQUAD 2.0格式的问题进行了增强。由于FQuAD的许可不允许共享数据,因此只共享了用于创建数据集的提示。数据集中包含了42种不同的提示,这些提示以不同的语气和形式(如使用“你”或“您”)提出。数据集分为训练集和验证集,分别包含1,741,404和267,792个样本,没有测试集。

The fquad_fr_prompt_qa dataset is a subset of the Dataset of French Prompts (DFP) and contains 2,009,196 rows suitable for a question-answering task. The original data originates from the FQuAD dataset by dHoffschmidt et al., which was augmented with questions in SQUAD 2.0 format from the FrenchQA dataset. Due to licensing restrictions of FQuAD, only the prompts are shared, allowing users to recreate the dataset in the same format as the xP3 dataset. The dataset includes 42 prompts created in the indicative tense, using both tutoiement and vouvoiement forms. It is split into a training set with 1,741,404 samples and a validation set with 267,792 samples, with no test split. The dataset is licensed under CC BY-NC-SA 3.0.
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

基本信息

  • 名称: fquad_fr_prompt_qa
  • 语言: 法语
  • 许可: CC BY-NC-SA 3.0
  • 大小: 1M<n<10M
  • 任务类别: 问答
  • 标签: DFP, french prompts
  • 注释创建者: found
  • 语言创建者: found
  • 多语言性: 单语
  • 源数据集: fquad

详细描述

fquad_fr_prompt_qaDataset of French Prompts (DFP) 的一个子集。它包含 2,009,196 行数据,适用于问答任务。原始数据(无提示)来自 dHoffschmidt 等人的数据集 FQuAD,并通过 FrenchQA 数据集中的 SQUAD 2.0 格式问题进行了增强。由于 FQuAD 的许可不允许共享数据,我们仅共享所使用的提示,以便用户可以以与 Muennighoff 等人的 xP3 数据集相同的格式自行重建数据集。

提示列表

该数据集创建了 42 个提示,逻辑包括使用直陈式、使用“你”和“您”的形式。

数据分割

  • 训练集: 1,741,404 样本
  • 验证集: 267,792 样本
  • 无测试集

引用

原始数据

plaintext @ARTICLE{2020arXiv200206071 author = {Martin, dHoffschmidt and Maxime, Vidal and Wacim, Belblidia and Tom, Brendlé}, title = "{FQuAD: French Question Answering Dataset}", journal = {arXiv e-prints}, keywords = {Computer Science - Computation and Language}, year = "2020", month = "Feb", eid = {arXiv:2002.06071}, pages = {arXiv:2002.06071}, archivePrefix = {arXiv}, eprint = {2002.06071}, primaryClass = {cs.CL} }

本数据集

plaintext @misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作