UIT-ViQuAD

arXiv2020-11-07 更新2024-06-21 收录

下载链接：

https://sites.google.com/uit.edu.vn/uit-nlp/datasets-projects

下载链接

链接失效反馈

官方服务：

资源简介：

UIT-ViQuAD是一个针对越南语机器阅读理解（MRC）的基准数据集，由越南胡志明市的信息技术和大学创建。该数据集包含超过23,000个人工生成的问答对，基于174篇越南语维基百科文章的5,109个段落。数据集的创建过程包括工人招募、段落收集、问答来源、验证和额外答案收集五个阶段。UIT-ViQuAD旨在评估MRC模型，特别是在越南语这种资源较少的语言中，解决理解文本和回答相关问题的任务。

UIT-ViQuAD is a benchmark dataset for Vietnamese machine reading comprehension (MRC), developed by the University of Information Technology, Ho Chi Minh City, Vietnam. This dataset contains over 23,000 manually generated question-answer pairs, which are derived from 5,109 paragraphs across 174 Vietnamese Wikipedia articles. The construction of UIT-ViQuAD involves five stages: worker recruitment, paragraph collection, question-answer generation, validation, and additional answer collection. UIT-ViQuAD aims to evaluate MRC models, particularly for the tasks of text understanding and answering related questions in low-resource languages such as Vietnamese.

提供机构：

信息技术和大学，胡志明市，越南越南国家大学，胡志明市，越南

创建时间：

2020-09-30

搜集汇总

数据集介绍

构建方式

在越南语自然语言处理领域，机器阅读理解研究长期面临基准数据稀缺的挑战。UIT-ViQuAD的构建遵循严谨的五阶段流程：首先通过严格筛选招募具备优秀语言理解能力的标注人员；随后从越南语维基百科中选取174篇高质量文章，并提取5,109个段落作为文本基础；标注人员基于段落内容自主构建问题与答案对，要求每个段落至少生成三个问题，答案必须为原文中的连续文本片段；通过自检与交叉检验的双重验证机制确保数据质量；最后为开发集和测试集的每个问题补充三个独立答案，形成多参考答案评估体系。

特点

该数据集包含23,074个人工标注的问题-答案对，覆盖丰富的语言学特征。问题类型分布呈现多样性，其中事实性提问占比最高，推理类型分析显示超过68%的问题需要单句或多句推理能力，显著高于同期英语数据集的难度水平。长度统计分析表明，问题长度集中在11-15词区间，答案以1-10词的短文本片段为主，段落长度多分布于101-200词范围。答案类型涵盖时间、地点、人物、名词短语等十一种语言学类别，其中名词短语占比最大，体现了越南语复杂的句法结构特征。

使用方法

研究者可将数据集按标准划分用于训练、开发和测试，通过精确匹配与F1分数评估模型性能。实验表明，跨语言预训练模型XLM-R在该数据集上表现最优，但与人工作答仍存在显著差距。使用时可重点关注长度效应分析，较长问题因包含更多语义线索往往更易处理，而较长答案和特定段落长度区间则构成挑战。类型分析显示，涉及地点、原因、方式的复杂问题类型，以及需要多句推理的问题，仍是当前模型的薄弱环节。该数据集还可支持课程学习研究和跨语言迁移实验，为低资源语言理解提供新的评估基准。

背景与挑战

背景概述

在自然语言处理领域，机器阅读理解作为核心任务之一，旨在使计算机能够理解文本内容并回答相关问题。然而，针对越南语这一拥有超过9700万母语使用者的语言，相关研究资源却相对匮乏。为此，越南信息科技大学的研究团队于2020年推出了UIT-ViQuAD数据集，旨在为低资源语言环境下的机器阅读理解评估提供基准。该数据集基于174篇越南语维基百科文章，涵盖了5109个段落和超过23000个人工标注的问答对，其创建过程严格遵循了从工作者招募到问答验证的多阶段流程。UIT-ViQuAD不仅填补了越南语跨度提取数据集的空白，还通过深入的语言学分析，揭示了其需要单句及多句推理的复杂性，为跨语言阅读理解研究提供了重要资源。

当前挑战

UIT-ViQuAD数据集面临的挑战主要体现在两个方面：在领域问题层面，越南语作为低资源语言，其机器阅读理解任务需克服语言结构的独特性，如复杂的名词短语和多样的疑问词变化，这要求模型具备超越简单词汇匹配的深层推理能力，特别是在处理涉及地点、原因和方式的复杂问题时表现尤为突出。在构建过程中，数据集的创建需应对高质量标注的难题，包括确保问答对的多样性、准确性以及避免拼写错误或信息不完整等问题，同时还需通过多轮交叉验证来保证标注一致性，这些因素共同增加了数据集构建的复杂性与严谨性要求。

常用场景

经典使用场景

在自然语言处理领域，机器阅读理解作为评估模型语言理解能力的关键任务，需要高质量的数据集作为基准。UIT-ViQuAD作为越南语首个基于维基百科的跨度提取式机器阅读理解数据集，其经典使用场景在于为越南语这一低资源语言提供标准化的评估平台。该数据集通过超过23,000个人工标注的问题-答案对，覆盖5,109个文本段落，广泛用于训练和测试各类神经网络模型，如DrQA、QANet及预训练语言模型BERT与XLM-R，以衡量模型在越南语文本中的语义推理和信息定位能力。

解决学术问题

UIT-ViQuAD的构建解决了越南语机器阅读理解研究中长期存在的基准数据匮乏问题。该数据集通过系统化的人工标注流程，确保了数据的多样性和复杂性，其中超过68%的问题需要单句或多句推理能力，超越了简单的词汇匹配任务。这不仅填补了越南语在跨度提取式阅读理解领域的空白，还为跨语言迁移学习提供了重要资源，促进了低资源语言在自然语言处理中的均衡发展，对推动多语言人工智能模型的进步具有深远意义。

衍生相关工作

围绕UIT-ViQuAD数据集，学术界衍生了一系列经典研究工作。早期实验涵盖了从传统神经网络模型如DrQA和QANet到先进预训练模型如多语言BERT和XLM-R的广泛评估，揭示了越南语机器阅读理解的独特挑战。后续研究进一步探索了跨语言迁移学习策略，将UIT-ViQuAD与英语SQuAD、中文CMRC等数据集结合，促进了多语言模型的泛化能力分析。这些工作不仅深化了对越南语言特性的理解，也为低资源语言处理模型的优化提供了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集