Atipico1/webq-top5_preprocessed

Name: Atipico1/webq-top5_preprocessed
Creator: Atipico1
Published: 2024-01-22 09:46:10
License: 暂无描述

Hugging Face2024-01-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Atipico1/webq-top5_preprocessed

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: question dtype: string - name: answers sequence: string - name: ctxs list: - name: hasanswer dtype: bool - name: id dtype: string - name: score dtype: float64 - name: text dtype: string - name: title dtype: string - name: masked_query dtype: string - name: query_embedding sequence: float32 splits: - name: train num_bytes: 24561156 num_examples: 3778 - name: test num_bytes: 13226950 num_examples: 2032 download_size: 33063836 dataset_size: 37788106 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

数据集信息：特征字段： - 字段名：question（问题），数据类型：字符串 - 字段名：answers（答案），数据类型：字符串序列 - 字段名：ctxs（上下文列表），数据类型：列表型，其子字段如下： - hasanswer：布尔（bool）型 - id：字符串类型编号 - score：float64型 - text：文本内容 - title：标题 - 字段名：masked_query（掩码查询语句），数据类型：字符串 - 字段名：query_embedding（查询嵌入），数据类型：float32序列数据集划分： - 划分名称：train（训练集），字节占用量：24561156，样本总数：3778 - 划分名称：test（测试集），字节占用量：13226950，样本总数：2032 下载总大小：33063836 字节数据集总占用大小：37788106 字节配置项： - 配置名称：default（默认配置），数据文件配置： - 训练集对应文件路径：data/train-* - 测试集对应文件路径：data/test-*

提供机构：

Atipico1

原始信息汇总

数据集概述

数据集特征

question: 问题，数据类型为字符串。
answers: 答案，数据类型为字符串序列。
ctxs: 上下文列表，包含以下字段：
- hasanswer: 是否有答案，数据类型为布尔值。
- id: 标识符，数据类型为字符串。
- score: 得分，数据类型为浮点数（float64）。
- text: 文本内容，数据类型为字符串。
- title: 标题，数据类型为字符串。
masked_query: 掩码查询，数据类型为字符串。
query_embedding: 查询嵌入，数据类型为浮点数序列（float32）。

数据集分割

train: 训练集，包含3778个样本，占用24561156字节。
test: 测试集，包含2032个样本，占用13226950字节。

数据集大小

下载大小: 33063836字节。
数据集大小: 37788106字节。

配置

default: 默认配置，包含以下数据文件：
- train: 路径为data/train-*。
- test: 路径为data/test-*。

搜集汇总

数据集介绍

构建方式

在开放域问答研究领域，数据集的构建质量直接影响模型的知识检索与推理能力。该数据集基于WebQuestions数据集进行深度预处理，通过信息检索系统为每个问题自动获取并关联了五个最相关的上下文文档。构建过程中，不仅保留了原始的问题与答案对，还引入了文档的标题、文本内容、相关性评分及是否包含答案的标注，并进一步生成了问题的掩码版本与预计算的查询向量嵌入，从而形成了一个结构丰富、便于多任务学习的检索增强型问答数据集。

特点

本数据集的核心特征在于其多层次的信息集成与任务导向设计。每个数据样本均包含原始自然语言问题、标准答案列表以及一组经过排序的检索上下文，其中每个上下文均附有详细的元数据，如相关性分数和答案存在性标签。尤为突出的是，数据集额外提供了问题的掩码查询形式及其密集向量表示，这为研究查询重写、密集检索以及端到端的检索-阅读模型提供了统一的实验基准，显著提升了其在复杂问答场景下的实用性与可扩展性。

使用方法

对于旨在探索开放域问答或检索增强生成的研究者而言，该数据集提供了清晰的使用路径。用户可直接加载训练集与测试集，利用‘question’和‘answers’进行标准的答案生成或抽取模型训练。同时，丰富的‘ctxs’字段支持检索模型或检索器-阅读器联合模型的性能评估。预计算的‘query_embedding’可用于分析或初始化密集检索模块，而‘masked_query’则为研究查询的语义理解与重构任务提供了便利。数据集的分割设计确保了模型开发与评估的严谨性。

背景与挑战

背景概述

在开放领域问答系统的发展历程中，WebQuestions数据集作为早期基准，为基于知识库的复杂自然语言查询提供了重要支撑。由斯坦福大学研究人员于2013年创建的WebQuestions，聚焦于从Freebase知识库中检索实体及其关系，以回答自然语言问题。该数据集推动了语义解析与信息检索技术的融合，为后续的神经语义解析和端到端问答模型奠定了数据基础。Atipico1/webq-top5_preprocessed作为其预处理版本，通过嵌入表示和上下文增强，进一步适应了现代密集检索与生成模型的需求，延续了其在复杂问答评估中的影响力。

当前挑战

该数据集旨在解决开放领域知识库问答的挑战，其核心难题在于如何准确解析自然语言问题中的复杂语义关系，并将其映射到结构化知识库的查询逻辑。构建过程中的挑战包括：从原始WebQuestions数据中筛选高质量问答对，确保问题与Freebase实体链接的精确性；为每个问题检索并标注相关上下文段落，平衡检索覆盖率与答案存在性验证；以及生成查询嵌入表示时，需克服语义稀疏性与分布偏移问题，以支持高效的向量化检索。

常用场景

经典使用场景

在开放域问答研究领域，WebQ-top5_preprocessed数据集为评估检索增强生成模型提供了标准化基准。该数据集精心整合了自然语言问题、候选答案及上下文文档，特别适用于模拟真实信息检索场景。研究者通过该数据集能够系统检验模型在复杂查询下的文档排序与答案抽取能力，为开放域问答系统的性能评估奠定了坚实基础。

实际应用

在实际应用层面，基于WebQ-top5_preprocessed训练的模型已广泛应用于智能客服与知识库系统。这些系统通过理解用户自然语言提问，自动从海量文档中检索相关片段并生成精准答案。该数据集支撑的技术显著提升了信息检索效率，使数字助手能够更可靠地回答开放域事实性问题，优化了人机交互体验。

衍生相关工作

该数据集催生了系列经典研究工作，特别是在稠密检索与生成式问答交叉领域。以DPR、REALM为代表的检索模型以及FiD等生成模型均在其基础上进行了深入探索与性能评估。这些工作进一步推动了预训练语言模型与检索系统的深度融合，为后续如RAG等架构的创新提供了重要的实验平台与比较基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集