squad1.0-vietnamese-translated

Hugging Face2025-08-08 更新2025-08-09 收录

下载链接：

https://huggingface.co/datasets/Neuvilleter/squad1.0-vietnamese-translated

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个越南语的数据集，包含了标题、上下文、问题以及答案的相关信息。数据集分为训练集、验证集和测试集三个部分，其中训练集有59790个示例，验证集有6644个示例，测试集有8105个示例。

This is a Vietnamese dataset containing relevant information including titles, contexts, questions and answers. The dataset is divided into three subsets: training set, validation set and test set. Specifically, the training set has 59790 samples, the validation set contains 6644 samples, and the test set consists of 8105 samples.

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: Squad1.1 translated Vietnamese
语言: 越南语 (vi)
下载大小: 46,161,059 字节
数据集大小: 89,582,963 字节

数据集结构

特征:
- id: 字符串类型
- title: 字符串类型
- context: 字符串类型
- question: 字符串类型
- answers: 结构体类型
  - answer_start: 整数序列 (int64)
  - text: 字符串序列

数据划分

训练集 (train):
- 样本数量: 59,790
- 大小: 71,676,845 字节
验证集 (validation):
- 样本数量: 6,644
- 大小: 7,967,619 字节
测试集 (test):
- 样本数量: 8,105
- 大小: 9,938,499 字节

其他信息

数据划分说明: 从训练集中分离出10%作为验证集。

搜集汇总

数据集介绍

构建方式

在机器阅读理解领域，跨语言数据资源的构建对模型泛化能力至关重要。squad1.0-vietnamese-translated数据集基于经典英文SQuAD 1.1版本，通过专业翻译流程将其内容转化为越南语版本。原始数据集中包含的维基百科文章段落及对应问题均经过人工翻译与校对，确保语义准确性。特别值得注意的是，构建者从原始训练集中划分出10%的样本作为验证集，这种划分方式既保留了原始数据分布特性，又为模型调优提供了可靠基准。

特点

该数据集作为越南语机器阅读理解研究的标杆资源，完整保留了SQuAD 1.1的框架结构。其特色在于包含59,790个训练样本和6,644个验证样本，每个样本均由文章标题、上下文段落、问题及标注答案组成。答案标注采用字符级定位方式，精确标注了答案在上下文中的起始位置和文本内容。这种细粒度的标注方式为模型提供了丰富的监督信号，特别适合训练端到端的阅读理解系统。

使用方法

研究者可利用该数据集进行越南语阅读理解模型的训练与评估。典型流程包括：加载预分割的训练集、验证集和测试集，基于上下文和问题对训练序列到序列模型或抽取式问答模型。评估阶段需特别注意答案起始位置的预测准确率，这是衡量模型性能的关键指标。由于数据格式与原始SQuAD完全兼容，现有评估脚本和基准系统可直接迁移使用，极大降低了跨语言研究的工程门槛。

背景与挑战

背景概述

SQuAD1.0-Vietnamese-Translated数据集是斯坦福大学自然语言处理研究组于2016年发布的SQuAD1.0英文阅读理解数据集的越南语翻译版本。该数据集由越南本土研究团队构建，旨在推动越南语机器阅读理解领域的发展。作为首个大规模越南语问答数据集，其核心研究问题聚焦于跨语言知识迁移与低资源语言理解。该数据集的建立为越南语NLP社区提供了重要基准，显著促进了越南语预训练语言模型的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，越南语作为黏着语的语法特性与拉丁字母书写系统的结合，导致传统基于英语的NLP模型难以有效处理词序变化与语义理解；在构建过程中，专业翻译团队需克服文化特定表达的本土化难题，确保问题-答案对在语言转换后保持逻辑一致性。数据分布方面，源数据集对西方文化的侧重使得部分内容在越南语境下需要额外注释调整。

常用场景

经典使用场景

在自然语言处理领域，squad1.0-vietnamese-translated数据集被广泛用于越南语问答系统的开发和评估。该数据集通过提供丰富的越南语上下文和对应的问题-答案对，为研究者提供了一个标准化的测试平台。经典的使用场景包括训练和评估机器阅读理解模型，测试模型在越南语环境下的语义理解和信息提取能力。

衍生相关工作

围绕该数据集已产生多项重要研究，包括跨语言预训练模型的微调方法、越南语BERT的改进版本以及低资源语言迁移学习技术。这些工作不仅提升了越南语NLP任务的性能，还为其他低资源语言处理提供了可借鉴的解决方案。部分研究进一步扩展了数据集的应用范围，开发出支持多轮对话和复杂推理的增强型问答系统。

数据集最近研究