CATIE-AQ/frenchQA
收藏Hugging Face2024-04-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/frenchQA
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个法语问答数据集,包含了多个开源的法语问答数据集,并提供了增强版本(相同上下文但不同问题,以SQuAD 2.0格式创建)。数据集总共有221,348条训练数据、910条验证数据和6,376条测试数据。由于FQUAD 1.0数据集的许可限制,只能共享200,617条训练数据和3,188条测试数据。用户需要将本数据集与FQUAD数据集结合使用以获得完整数据集。数据集的使用方法通过Hugging Face的`load_dataset`函数加载,并提供了详细的列描述和数据集分割信息。此外,还提供了问题类型的统计信息。
该数据集是一个法语问答数据集,包含了多个开源的法语问答数据集,并提供了增强版本(相同上下文但不同问题,以SQuAD 2.0格式创建)。数据集总共有221,348条训练数据、910条验证数据和6,376条测试数据。由于FQUAD 1.0数据集的许可限制,只能共享200,617条训练数据和3,188条测试数据。用户需要将本数据集与FQUAD数据集结合使用以获得完整数据集。数据集的使用方法通过Hugging Face的`load_dataset`函数加载,并提供了详细的列描述和数据集分割信息。此外,还提供了问题类型的统计信息。
提供机构:
CATIE-AQ
原始信息汇总
数据集概述
基本信息
- 任务类别: 问答(question-answering)
- 语言: 法语(fr)
- 数据集大小: 100K<n<1M
- 许可证: CC-BY-4.0
数据集内容
- 数据集描述: 该数据集整合了多个法语问答数据集,支持开放源代码。此外,还包括了这些数据集的增强版本,以SQuAD 2.0格式提供不同的问答对。
- 数据量: 训练数据221,348条,验证数据910条,测试数据6,376条。但由于许可证限制,实际可分享的训练数据为200,617条,测试数据为3,188条。
数据集结构
- 训练集: 包含200,617条数据,特征包括上下文、问题、答案、答案起始位置和数据集来源。
- 验证集: 包含910条数据,特征与训练集相同。
- 测试集: 包含3,188条数据,特征包括ID、标题、上下文、问题和答案。
数据集组成
- 数据集来源: 包括piaf、piaf_v2、fquad、fquad_v2等多个子数据集,格式主要为SQuAD 1.0和SQuAD 2.0。
- 数据集格式: 主要为SQuAD格式,包括SQuAD 1.0和SQuAD 2.0。
问题类型统计
- 问题类型分布: 主要包括“什么”(55.02%)、“谁”(15.96%)、“多少”(7.92%)、“何时”(6.90%)、“哪里”(3.15%)、“如何”(3.76%)、“什么”(2.60%)、“为什么”(1.25%)和其他(3.44%)。
- 否定问题比例: 约占总问题的3.55%。
许可证
- 许可证类型: CC-BY-4.0
引用信息
- 作者: ALBAR, Boris; BEDU, Pierre; BOURDOIS, Loïck
- 出版年份: 2023
- 数据集名称: frenchQA (Revision 6249cd5)
- 出版者: Hugging Face



