five

ccasimiro/squad_es

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ccasimiro/squad_es
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是斯坦福问答数据集(SQuAD)v2的西班牙语自动翻译版本,主要用于问答任务,特别是抽取式问答。数据集包含训练集和验证集,分别有87595和10570个样本。数据集的字段包括id、title、context、question和answers,其中answers包含text和answer_start两个子字段。数据集的大小为94.63 MB,下载文件大小为39.29 MB。数据集的语言为西班牙语,许可证为CC BY 4.0。

该数据集是斯坦福问答数据集(SQuAD)v2的西班牙语自动翻译版本,主要用于问答任务,特别是抽取式问答。数据集包含训练集和验证集,分别有87595和10570个样本。数据集的字段包括id、title、context、question和answers,其中answers包含text和answer_start两个子字段。数据集的大小为94.63 MB,下载文件大小为39.29 MB。数据集的语言为西班牙语,许可证为CC BY 4.0。
提供机构:
ccasimiro
原始信息汇总

数据集概述

名称: SQuAD-es

语言: 西班牙语 (es)

许可证: CC BY 4.0

多语言性: 单语种

大小类别: 10K<n<100K

源数据集: 扩展自 SQuAD

任务类别: 问答

任务ID: 抽取式问答 (extractive-qa)

数据集信息:

  • 特征:

    • id: 字符串类型
    • title: 字符串类型
    • context: 字符串类型
    • question: 字符串类型
    • answers: 字典类型,包含
      • text: 字符串类型
      • answer_start: 整数类型 (int32)
  • 数据分割:

    • train: 87595 个例子
    • validation: 10570 个例子
  • 下载大小: 39.29 MB

  • 数据集大小: 94.63 MB

数据集创建

注释创建者: 机器生成

语言创建者: 机器生成

许可证信息: 该数据集根据 CC BY 4.0 许可发布。

引用信息:

@article{2016arXiv160605250R, author = {Casimiro Pio , Carrino and Marta R. , Costa-jussa and Jose A. R. , Fonollosa}, title = "{Automatic Spanish Translation of the SQuAD Dataset for Multilingual Question Answering}", journal = {arXiv e-prints}, year = 2019, eid = {arXiv:1912.05200v1}, pages = {arXiv:1912.05200v1}, archivePrefix = {arXiv}, eprint = {1912.05200v2}, }

贡献者: 感谢 @patrickvonplaten, @thomwolf, @albertvillanova, @lewtun 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作