squad-v2-sampled

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/brimmann2/squad-v2-sampled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了gem_id、id、标题、上下文、问题、目标、参考文献、答案（包括文本和答案开始位置）、嵌入向量以及生成的文本等字段。数据集分为训练集、测试集和验证集，分别包含1000、250和250个示例。数据集的下载大小为约19.9MB，总大小约为98.7MB。数据集主要用于文本问答和生成任务。

This dataset includes fields such as gem_id, id, title, context, question, objective, references, answers (including text and answer start position), embedding vectors, and generated text. The dataset is split into training, test, and validation sets, which contain 1000, 250, and 250 examples respectively. The download size of the dataset is approximately 19.9 MB, and the total size is about 98.7 MB. This dataset is mainly used for text question answering and generation tasks.

创建时间：

2025-10-18

原始信息汇总

数据集概述

基本信息

数据集名称: squad-v2-sampled
存储位置: https://huggingface.co/datasets/brimmann2/squad-v2-sampled
下载大小: 19,944,392字节
数据集大小: 100,813,269字节

数据结构

特征字段

gem_id: 字符串类型
id: 字符串类型
title: 字符串类型
context: 字符串类型
question: 字符串类型
target: 字符串类型
references: 字符串列表
answers: 序列类型
- text: 字符串类型
- answer_start: 整型32位
embeddings: 浮点64位序列
generated_text: 字符串类型
embeddings_gen: 浮点64位序列

数据划分

训练集: 1,000个样本，67,200,313字节
测试集: 250个样本，16,802,412字节
验证集: 250个样本，16,810,544字节

配置信息

默认配置:
- 训练集文件路径: data/train-*
- 测试集文件路径: data/test-*
- 验证集文件路径: data/validation-*

搜集汇总

数据集介绍

构建方式

在机器阅读理解领域，squad-v2-sampled数据集通过精心设计的采样策略从原始SQuAD 2.0数据集中提取代表性样本。构建过程采用分层抽样技术，确保训练集、验证集和测试集在问题类型和上下文复杂度上保持均衡分布。该数据集最终形成1000个训练样本、250个验证样本和250个测试样本的规模，每个样本均包含完整的问答对、文本嵌入和生成文本等多维特征。

特点

该数据集最显著的特征在于其丰富的结构化标注体系，不仅包含传统的问答对和上下文信息，还创新性地整合了文本嵌入向量和生成文本内容。每个样本配备gem_id和id双重标识系统，answers字段采用序列化结构记录答案文本及其起始位置，references字段则提供多参考标准。嵌入向量特征为深度语义分析提供了坚实基础，使数据集在保持轻量化的同时具备研究深度。

使用方法

研究人员可依据标准机器学习流程划分训练集、验证集和测试集进行模型开发。该数据集支持端到端的阅读理解模型训练，通过context-question-answer三元组构建监督学习任务。嵌入向量可直接用于语义相似度计算和表示学习，而generated_text字段则为文本生成模型提供对比训练素材。验证集可用于超参数调优，测试集则作为模型性能的最终评估基准。

背景与挑战

背景概述

SQuAD-v2-sampled数据集源于斯坦福大学自然语言处理实验室于2018年推出的SQuAD 2.0基准数据集，旨在推动机器阅读理解领域的发展。该数据集通过从维基百科文章中提取上下文段落并构造问题-答案对，核心研究在于解决模型对无答案问题的识别能力与有答案问题的精确定位之间的平衡。作为自然语言理解任务的重要评测基准，其构建推动了预训练语言模型在阅读理解任务上的突破性进展，对问答系统、智能助手等应用领域产生了深远影响。

当前挑战

该数据集主要应对机器阅读理解中不可回答问题的识别挑战，要求模型在缺乏明确答案时避免生成错误回应，同时保持对可回答问题的准确提取。构建过程中面临标注一致性难题，需要人工标注者严格区分问题是否可基于上下文解答，并确保答案跨度的精确标注。此外，数据采样与嵌入表示的计算增加了处理复杂度，需平衡数据规模与计算资源间的矛盾。

常用场景

经典使用场景

在机器阅读理解领域，squad-v2-sampled数据集作为斯坦福问答数据集的精炼版本，主要应用于开放域问答系统的训练与评估。该数据集通过提供包含上下文、问题及对应答案的标准化样本，为模型理解自然语言语义关系提供了重要支撑。其经典使用场景体现在训练深度神经网络模型从给定文本中精确提取答案，并处理无法回答的问题，这对提升模型的推理能力和泛化性能具有关键意义。

衍生相关工作

基于该数据集衍生的经典工作包括BERT、RoBERTa等预训练语言模型的阅读理解基准测试，以及BiDAF、QANet等神经架构的创新设计。这些研究不仅推动了注意力机制在问答任务中的深化应用，更催生了多跳推理、对抗性训练等前沿方向的发展，构建了现代自然语言理解技术体系的重要基石。

数据集最近研究