five

qwant/squad_fr

收藏
Hugging Face2023-04-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qwant/squad_fr
下载链接
链接失效反馈
官方服务:
资源简介:
SQuAD-fr是斯坦福问答数据集(SQuAD)的法语翻译版本,通过自动翻译生成。它是一个阅读理解数据集,包含约90K个关于维基百科文章的事实性问题,每个问题的答案是对应阅读段落中的一段文本。该数据集用于增强FQuAD和PIAF基准测试的数据。数据集主要用于封闭领域问答任务,也可用于信息检索任务。数据集完全使用法语。
提供机构:
qwant
原始信息汇总

数据集概述

数据集名称

  • 名称: SQuAD-fr
  • 别名: squad_fr

数据集描述

  • 摘要: SQuAD-fr 是斯坦福问答数据集(SQuAD)的法语翻译版本,通过自动翻译英文数据集获得。该数据集包含约90,000个关于维基百科文章的事实性问题,每个问题的答案都是相关阅读段落中的文本片段。
  • 语言: 该数据集仅包含法语内容。
  • 许可: 数据集遵循CC-BY-4.0许可。

数据集结构

  • 数据实例: 每个数据实例包括以下字段:
    • id: 字符串类型。
    • title: 字符串类型。
    • context: 字符串类型。
    • question: 字符串类型。
    • answers: 字典类型,包含:
      • text: 字符串类型。
      • answer_start: 整数类型。
  • 数据分割: 数据集分为训练集和验证集,其中训练集包含87,514个实例,验证集包含17,492个实例。

数据集创建

  • 来源数据: 数据集是对原始SQuAD数据集的扩展。
  • 注释: 注释由机器自动生成。

使用数据注意事项

  • 数据集影响: 数据集用于研究Transformer模型在法语问答任务中的可用性,以及数据稀缺性相关的稳定性问题。
  • 数据集限制: 数据集的详细限制和偏见讨论尚不明确。

附加信息

  • 数据集管理者: 信息未提供。
  • 引用信息: 引用该数据集时,应使用提供的文献引用格式。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作