five

TheTung/squad_es_v2

收藏
Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TheTung/squad_es_v2
下载链接
链接失效反馈
官方服务:
资源简介:
SQuAD-es数据集是斯坦福问答数据集(SQuAD)v2的自动翻译版本,目标语言为西班牙语。该数据集包含训练集和验证集,分别有87595和10570个样本。数据字段包括id、title、context、question和answers,其中answers包含text和answer_start两个子字段。数据集的大小为39.29 MB(下载文件)和94.63 MB(生成数据集),总磁盘使用量为133.92 MB。数据集采用CC BY 4.0许可证。

SQuAD-es数据集是斯坦福问答数据集(SQuAD)v2的自动翻译版本,目标语言为西班牙语。该数据集包含训练集和验证集,分别有87595和10570个样本。数据字段包括id、title、context、question和answers,其中answers包含text和answer_start两个子字段。数据集的大小为39.29 MB(下载文件)和94.63 MB(生成数据集),总磁盘使用量为133.92 MB。数据集采用CC BY 4.0许可证。
提供机构:
TheTung
原始信息汇总

数据集概述

数据集摘要

自动翻译的斯坦福问答数据集(SQuAD)v2到西班牙语。

支持的任务和排行榜

  • 任务类别: 问答
  • 任务ID: 抽取式问答

语言

  • 语言: 西班牙语

数据集结构

数据实例

v1.1.0

  • 下载的数据文件大小: 39.29 MB
  • 生成的数据集大小: 94.63 MB
  • 总磁盘使用量: 133.92 MB

训练集示例: json { "answers": { "answer_start": [404, 356, 356], "text": ["Santa Clara, California", "Levi s Stadium", "Levi s Stadium en la Bahía de San Francisco en Santa Clara, California."] }, "context": ""El Super Bowl 50 fue un partido de fútbol americano para determinar al campeón de la NFL para la temporada 2015. El campeón de ...", "id": "56be4db0acb8001400a502ee", "question": "¿Dónde tuvo lugar el Super Bowl 50?", "title": "Super Bowl _ 50" }

数据字段

v1.1.0

  • id: 字符串特征。
  • title: 字符串特征。
  • context: 字符串特征。
  • question: 字符串特征。
  • answers: 字典特征,包含:
    • text: 字符串特征。
    • answer_start: 整数特征。

数据分割

名称 训练集 验证集
v1.1.0 87595 10570

数据集创建

数据集策划理由

更多信息需补充

源数据

初始数据收集和规范化

更多信息需补充

源语言生产者

更多信息需补充

标注

标注过程

更多信息需补充

标注者

更多信息需补充

个人和敏感信息

更多信息需补充

使用数据的注意事项

数据集的社会影响

更多信息需补充

偏见的讨论

更多信息需补充

其他已知限制

更多信息需补充

附加信息

数据集策展人

更多信息需补充

许可信息

SQuAD-es数据集在CC BY 4.0许可下发布。

引用信息

bibtex @article{2016arXiv160605250R, author = {Casimiro Pio , Carrino and Marta R. , Costa-jussa and Jose A. R. , Fonollosa}, title = "{Automatic Spanish Translation of the SQuAD Dataset for Multilingual Question Answering}", journal = {arXiv e-prints}, year = 2019, eid = {arXiv:1912.05200v1}, pages = {arXiv:1912.05200v1}, archivePrefix = {arXiv}, eprint = {1912.05200v2}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作