ucas-ir-2025-webq-sampled

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/MosRat/ucas-ir-2025-webq-sampled

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为2025年中国科学院大学现代信息检索课程准备的WebQuestions数据集的子集，用于开放域问答和检索增强生成任务。训练集和验证集包含问题、答案和预检索的正例及硬负例上下文段落，测试集包含问题和相应的真实答案。

This is a subset of the WebQuestions dataset prepared for the 2025 Modern Information Retrieval course at the University of Chinese Academy of Sciences, designed for open-domain question answering and retrieval-augmented generation tasks. The training and validation sets contain questions, answers, along with pre-retrieved positive and hard-negative contextual passages, while the test set includes questions and their corresponding ground-truth answers.

创建时间：

2025-10-22

原始信息汇总

UCAS-IR-2025-WebQ-Sampled 数据集概述

数据集基本信息

数据集名称: WebQ Sampled for UCAS IR 2025
用途: 开放域问答和检索增强生成任务
来源: 原始WebQuestions数据集的采样子集
适用场景: 中国科学院大学2025年现代信息检索课程期末项目

数据集结构

数据特征

question: 问题文本
answers: 答案列表
dataset: 数据集来源标识
positive_ctxs: 正例上下文列表
- psg_id: 段落标识
- score: 相关性分数
- text: 段落文本
- title: 段落标题
- title_score: 标题分数
negative_ctxs: 负例上下文列表（当前为空）
hard_negative_ctxs: 困难负例上下文列表
- 包含与positive_ctxs相同的特征结构

数据划分

训练集: 2,474个样本，大小165,190,032字节
验证集: 278个样本，大小18,603,771字节
测试集: 200个样本，大小35,071字节

技术规格

总下载大小: 98,988,050字节
数据集总大小: 183,828,874字节
配置文件: default
数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

使用说明

可通过Hugging Face datasets库加载使用： python from datasets import load_dataset ds = load_dataset("MosRat/ucas-ir-2025-webq-sampled")

搜集汇总

数据集介绍

构建方式

在信息检索研究领域，该数据集基于经典WebQuestions语料进行精心采样构建，专为中国科学院大学2025年现代信息检索课程设计。其训练集与验证集通过预检索技术获取正例上下文段落与困难负例样本，测试集则保留原始问题与标准答案的对应关系，形成包含2474个训练样本、278个验证样本和200个测试样本的三元结构。

特点

该数据集展现出开放域问答与检索增强生成的鲜明特征，每个样本均包含自然语言问题、多答案标签及带权重的上下文段落。正例上下文配备相关性分数与标题评分，困难负例的引入增强了模型区分能力。数据结构采用标准化的字符串与浮点数字段，支持大规模检索系统的精细化训练与评估。

使用方法

借助Hugging Face生态系统，研究者可通过datasets库快速加载该数据集的三重分割。典型应用流程包括使用训练集构建检索器与阅读器模型，通过验证集调整超参数，最终在测试集上评估开放域问答性能。数据字段的规整设计使其能无缝接入主流深度学习框架，推动检索增强生成技术的迭代发展。

背景与挑战

背景概述

随着开放域问答系统研究的深入发展，高质量数据集成为推动领域进步的关键要素。ucas-ir-2025-webq-sampled数据集作为WebQuestions基准的采样子集，由中国科学院大学为2025年现代信息检索课程设计，聚焦于检索增强生成与开放域问答任务。该数据集通过结构化的问题-答案对与预检索文档上下文，为神经网络模型提供了面向真实网络查询的语义理解训练环境，其多维度特征标注体系显著提升了问答系统在复杂语义场景下的泛化能力。

当前挑战

开放域问答领域长期面临语义鸿沟与知识碎片化的核心难题，本数据集需解决自然语言问题与离散知识片段间的精准对齐挑战。在构建过程中，研发团队需克服多源异构数据的语义一致性维护问题，包括答案跨度标注的模糊性消解、硬负例采样中的语义相似度平衡，以及长文本上下文与精简答案间的逻辑关联建模等技术瓶颈。

常用场景

经典使用场景

在开放域问答系统研究中，该数据集作为基准工具广泛应用于检索增强生成模型的训练与评估。其精心构建的问题-答案对与上下文段落三元组结构，为深度神经网络提供了学习语义匹配与知识推理的理想素材，尤其适合模拟真实网络环境中用户提出的复杂信息需求。

解决学术问题

该数据集有效缓解了开放域问答中证据文档检索与答案生成联合优化的技术难题。通过提供带标注的正负例上下文，它帮助研究者突破传统端到端模型的性能瓶颈，推动了多跳推理、对抗性样本鲁棒性等关键问题的研究进展，为构建可解释性强的事实性问答系统奠定数据基础。

衍生相关工作

该数据集的发布催生了系列创新研究，包括基于对比学习的密集段落检索模型、融合图神经网络的多文档推理框架等。这些工作通过引入动态负采样策略与跨模态注意力机制，持续推动着开放域问答技术在语义理解深度和知识覆盖广度方面的边界拓展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集