ccasimiro/squad_es
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ccasimiro/squad_es
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是斯坦福问答数据集(SQuAD)v2的西班牙语自动翻译版本,主要用于问答任务,特别是抽取式问答。数据集包含训练集和验证集,分别有87595和10570个样本。数据集的字段包括id、title、context、question和answers,其中answers包含text和answer_start两个子字段。数据集的大小为94.63 MB,下载文件大小为39.29 MB。数据集的语言为西班牙语,许可证为CC BY 4.0。
该数据集是斯坦福问答数据集(SQuAD)v2的西班牙语自动翻译版本,主要用于问答任务,特别是抽取式问答。数据集包含训练集和验证集,分别有87595和10570个样本。数据集的字段包括id、title、context、question和answers,其中answers包含text和answer_start两个子字段。数据集的大小为94.63 MB,下载文件大小为39.29 MB。数据集的语言为西班牙语,许可证为CC BY 4.0。
提供机构:
ccasimiro
原始信息汇总
数据集概述
名称: SQuAD-es
语言: 西班牙语 (es)
许可证: CC BY 4.0
多语言性: 单语种
大小类别: 10K<n<100K
源数据集: 扩展自 SQuAD
任务类别: 问答
任务ID: 抽取式问答 (extractive-qa)
数据集信息:
-
特征:
id: 字符串类型title: 字符串类型context: 字符串类型question: 字符串类型answers: 字典类型,包含text: 字符串类型answer_start: 整数类型 (int32)
-
数据分割:
train: 87595 个例子validation: 10570 个例子
-
下载大小: 39.29 MB
-
数据集大小: 94.63 MB
数据集创建
注释创建者: 机器生成
语言创建者: 机器生成
许可证信息: 该数据集根据 CC BY 4.0 许可发布。
引用信息:
@article{2016arXiv160605250R, author = {Casimiro Pio , Carrino and Marta R. , Costa-jussa and Jose A. R. , Fonollosa}, title = "{Automatic Spanish Translation of the SQuAD Dataset for Multilingual Question Answering}", journal = {arXiv e-prints}, year = 2019, eid = {arXiv:1912.05200v1}, pages = {arXiv:1912.05200v1}, archivePrefix = {arXiv}, eprint = {1912.05200v2}, }
贡献者: 感谢 @patrickvonplaten, @thomwolf, @albertvillanova, @lewtun 添加此数据集。



