five

CATIE-AQ/frenchQA

收藏
Hugging Face2024-04-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/frenchQA
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个法语问答数据集,包含了多个开源的法语问答数据集,并提供了增强版本(相同上下文但不同问题,以SQuAD 2.0格式创建)。数据集总共有221,348条训练数据、910条验证数据和6,376条测试数据。由于FQUAD 1.0数据集的许可限制,只能共享200,617条训练数据和3,188条测试数据。用户需要将本数据集与FQUAD数据集结合使用以获得完整数据集。数据集的使用方法通过Hugging Face的`load_dataset`函数加载,并提供了详细的列描述和数据集分割信息。此外,还提供了问题类型的统计信息。

该数据集是一个法语问答数据集,包含了多个开源的法语问答数据集,并提供了增强版本(相同上下文但不同问题,以SQuAD 2.0格式创建)。数据集总共有221,348条训练数据、910条验证数据和6,376条测试数据。由于FQUAD 1.0数据集的许可限制,只能共享200,617条训练数据和3,188条测试数据。用户需要将本数据集与FQUAD数据集结合使用以获得完整数据集。数据集的使用方法通过Hugging Face的`load_dataset`函数加载,并提供了详细的列描述和数据集分割信息。此外,还提供了问题类型的统计信息。
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

基本信息

  • 任务类别: 问答(question-answering)
  • 语言: 法语(fr)
  • 数据集大小: 100K<n<1M
  • 许可证: CC-BY-4.0

数据集内容

  • 数据集描述: 该数据集整合了多个法语问答数据集,支持开放源代码。此外,还包括了这些数据集的增强版本,以SQuAD 2.0格式提供不同的问答对。
  • 数据量: 训练数据221,348条,验证数据910条,测试数据6,376条。但由于许可证限制,实际可分享的训练数据为200,617条,测试数据为3,188条。

数据集结构

  • 训练集: 包含200,617条数据,特征包括上下文、问题、答案、答案起始位置和数据集来源。
  • 验证集: 包含910条数据,特征与训练集相同。
  • 测试集: 包含3,188条数据,特征包括ID、标题、上下文、问题和答案。

数据集组成

  • 数据集来源: 包括piaf、piaf_v2、fquad、fquad_v2等多个子数据集,格式主要为SQuAD 1.0和SQuAD 2.0。
  • 数据集格式: 主要为SQuAD格式,包括SQuAD 1.0和SQuAD 2.0。

问题类型统计

  • 问题类型分布: 主要包括“什么”(55.02%)、“谁”(15.96%)、“多少”(7.92%)、“何时”(6.90%)、“哪里”(3.15%)、“如何”(3.76%)、“什么”(2.60%)、“为什么”(1.25%)和其他(3.44%)。
  • 否定问题比例: 约占总问题的3.55%。

许可证

  • 许可证类型: CC-BY-4.0

引用信息

  • 作者: ALBAR, Boris; BEDU, Pierre; BOURDOIS, Loïck
  • 出版年份: 2023
  • 数据集名称: frenchQA (Revision 6249cd5)
  • 出版者: Hugging Face
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作