five

vsvasconcelos/SQuAD-pt_BR-V1.1

收藏
Hugging Face2024-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vsvasconcelos/SQuAD-pt_BR-V1.1
下载链接
链接失效反馈
官方服务:
资源简介:
数据集Stanford Question Answering Dataset (SQuAD)最初是为英语问答任务开发的,后来被Deep Learning Brasil团队自动翻译并手动调整成葡萄牙语版本。该数据集包含来自536篇维基百科文章的超过100,000行数据,分为训练集和验证集,分别包含87,510和17,853条记录。数据集的结构包括问题和维基百科文章的上下文,其中包含问题的答案。原始数据集未提供测试集,因此建议将训练集和验证集合并后重新划分为训练集(80%)、验证集(10%)和测试集(10%)。此外,数据集的最大token数量为854(训练集)和749(验证集)。

数据集Stanford Question Answering Dataset (SQuAD)最初是为英语问答任务开发的,后来被Deep Learning Brasil团队自动翻译并手动调整成葡萄牙语版本。该数据集包含来自536篇维基百科文章的超过100,000行数据,分为训练集和验证集,分别包含87,510和17,853条记录。数据集的结构包括问题和维基百科文章的上下文,其中包含问题的答案。原始数据集未提供测试集,因此建议将训练集和验证集合并后重新划分为训练集(80%)、验证集(10%)和测试集(10%)。此外,数据集的最大token数量为854(训练集)和749(验证集)。
提供机构:
vsvasconcelos
原始信息汇总

数据集卡片 for Stanford Question Answering Dataset (SQuAD)

数据集概述

Stanford Question Answering Dataset (SQuAD) 是一个用于抽取式问答任务的数据集,于2016年开发。该数据集基于536篇维基百科文章,包含超过100,000行数据。数据集以问题和包含答案的维基百科文章段落的形式构建。

数据集详情

数据集描述

原始数据集提供了两个文件:squad-train-v1.1.json 和 squad-dev-v1.1.json,分别用于训练和验证。这两个文件分别包含87,510和17,853条记录,总计105,363条记录。按百分比计算,83%的数据用于训练,17%的数据用于验证。

在机器学习领域,通常将数据集分为训练、验证和测试三部分。然而,这里并未提供测试数据。根据[1]的描述:

"[...] 我们使用数据集的80%来训练模型,10%用于验证和超参数调整。数据集的最后10%保留用于测试,并由数据集创建者保密,以保持问答模型的完整性。"

因此,作者未公开10%的测试数据。建议将训练和验证数据合并,然后随机重新划分为训练(80%)、验证(10%)和测试(10%)。

关于上下文字段中识别的最大token数量,训练集为854个token,验证集为749个token。

数据集来源

  • 论文: [ 1 2 ]

许可证

  • 许可证: apache-2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作