vsvasconcelos/SQuAD-pt_BR-V1.1

Name: vsvasconcelos/SQuAD-pt_BR-V1.1
Creator: vsvasconcelos
Published: 2024-03-21 00:08:41
License: 暂无描述

Hugging Face2024-03-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/vsvasconcelos/SQuAD-pt_BR-V1.1

下载链接

链接失效反馈

官方服务：

资源简介：

数据集Stanford Question Answering Dataset (SQuAD)最初是为英语问答任务开发的，后来被Deep Learning Brasil团队自动翻译并手动调整成葡萄牙语版本。该数据集包含来自536篇维基百科文章的超过100,000行数据，分为训练集和验证集，分别包含87,510和17,853条记录。数据集的结构包括问题和维基百科文章的上下文，其中包含问题的答案。原始数据集未提供测试集，因此建议将训练集和验证集合并后重新划分为训练集（80%）、验证集（10%）和测试集（10%）。此外，数据集的最大token数量为854（训练集）和749（验证集）。

提供机构：

vsvasconcelos

原始信息汇总

数据集卡片 for Stanford Question Answering Dataset (SQuAD)

数据集概述

Stanford Question Answering Dataset (SQuAD) 是一个用于抽取式问答任务的数据集，于2016年开发。该数据集基于536篇维基百科文章，包含超过100,000行数据。数据集以问题和包含答案的维基百科文章段落的形式构建。

数据集详情

数据集描述

原始数据集提供了两个文件：squad-train-v1.1.json 和 squad-dev-v1.1.json，分别用于训练和验证。这两个文件分别包含87,510和17,853条记录，总计105,363条记录。按百分比计算，83%的数据用于训练，17%的数据用于验证。

在机器学习领域，通常将数据集分为训练、验证和测试三部分。然而，这里并未提供测试数据。根据[1]的描述：

"[...] 我们使用数据集的80%来训练模型，10%用于验证和超参数调整。数据集的最后10%保留用于测试，并由数据集创建者保密，以保持问答模型的完整性。"

因此，作者未公开10%的测试数据。建议将训练和验证数据合并，然后随机重新划分为训练（80%）、验证（10%）和测试（10%）。

关于上下文字段中识别的最大token数量，训练集为854个token，验证集为749个token。

数据集来源

论文: [ 1 2 ]

许可证

许可证: apache-2.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集