qwant/squad_fr
收藏Hugging Face2023-04-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qwant/squad_fr
下载链接
链接失效反馈官方服务:
资源简介:
SQuAD-fr是斯坦福问答数据集(SQuAD)的法语翻译版本,通过自动翻译生成。它是一个阅读理解数据集,包含约90K个关于维基百科文章的事实性问题,每个问题的答案是对应阅读段落中的一段文本。该数据集用于增强FQuAD和PIAF基准测试的数据。数据集主要用于封闭领域问答任务,也可用于信息检索任务。数据集完全使用法语。
提供机构:
qwant
原始信息汇总
数据集概述
数据集名称
- 名称: SQuAD-fr
- 别名: squad_fr
数据集描述
- 摘要: SQuAD-fr 是斯坦福问答数据集(SQuAD)的法语翻译版本,通过自动翻译英文数据集获得。该数据集包含约90,000个关于维基百科文章的事实性问题,每个问题的答案都是相关阅读段落中的文本片段。
- 语言: 该数据集仅包含法语内容。
- 许可: 数据集遵循CC-BY-4.0许可。
数据集结构
- 数据实例: 每个数据实例包括以下字段:
id: 字符串类型。title: 字符串类型。context: 字符串类型。question: 字符串类型。answers: 字典类型,包含:text: 字符串类型。answer_start: 整数类型。
- 数据分割: 数据集分为训练集和验证集,其中训练集包含87,514个实例,验证集包含17,492个实例。
数据集创建
- 来源数据: 数据集是对原始SQuAD数据集的扩展。
- 注释: 注释由机器自动生成。
使用数据注意事项
- 数据集影响: 数据集用于研究Transformer模型在法语问答任务中的可用性,以及数据稀缺性相关的稳定性问题。
- 数据集限制: 数据集的详细限制和偏见讨论尚不明确。
附加信息
- 数据集管理者: 信息未提供。
- 引用信息: 引用该数据集时,应使用提供的文献引用格式。



