enhanced_reranking_hyde_text-embedding-3-small_queries_with_top5_chunks_answers_Qwen3-0.6B

Hugging Face2025-11-13 更新2025-11-14 收录

下载链接：

https://huggingface.co/datasets/DLBDAlkemy/enhanced_reranking_hyde_text-embedding-3-small_queries_with_top5_chunks_answers_Qwen3-0.6B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含多个配置的问答数据集，每个配置包含不同的特征字段，用于训练和评估问答模型。数据集中的字段包括问题ID、问题文本、相关文档ID列表、相关文档片段列表、提示文本和生成的答案。不同配置的数据集具有不同的训练集大小和示例数量。

创建时间：

2025-11-05

原始信息汇总

数据集概述

基本信息

数据集名称: enhanced_reranking_hyde_text-embedding-3-small_queries_with_top5_chunks_answers_Qwen3-0.6B
配置数量: 4个独立配置
数据格式: 结构化文本数据

配置详情

cqadupstack_english配置

特征字段:
- query_id: 字符串类型
- query: 字符串类型
- top_5_doc_ids: int64列表
- top_5_chunks: 字符串列表
- prompt: 字符串类型
- generated_answer: 字符串类型
数据统计:
- 训练集样本数: 1570
- 训练集大小: 10,686,401字节
- 下载大小: 5,157,185字节

fever_test配置

特征字段:
- query_id: 字符串类型
- query: 字符串类型
- top_5_doc_ids: 字符串列表
- top_5_chunks: 字符串列表
- prompt: 字符串类型
- generated_answer: 字符串类型
- gt_doc_ids: 字符串列表
- gt_doc_chunks: 字符串列表
数据统计:
- 训练集样本数: 6666
- 训练集大小: 88,899,117字节
- 下载大小: 43,648,601字节

fiqa_test配置

特征字段:
- query_id: 字符串类型
- query: 字符串类型
- top_5_doc_ids: int64列表
- top_5_chunks: 字符串列表
- prompt: 字符串类型
- generated_answer: 字符串类型
- gt_doc_ids: 字符串列表
- gt_doc_chunks: 字符串列表
数据统计:
- 训练集样本数: 648
- 训练集大小: 10,815,911字节
- 下载大小: 6,018,606字节

nq配置

特征字段:
- query_id: 字符串类型
- query: 字符串类型
- top_5_doc_ids: 字符串列表
- top_5_chunks: 字符串列表
- prompt: 字符串类型
- generated_answer: 字符串类型
- gt_doc_ids: 字符串列表
- gt_doc_chunks: 字符串列表
数据统计:
- 训练集样本数: 3452
- 训练集大小: 26,868,194字节
- 下载大小: 14,785,628字节

总体统计

总样本数: 12,336个训练样本
总数据集大小: 136,333,623字节
总下载大小: 69,610,020字节

搜集汇总

数据集介绍

构建方式

在信息检索与问答系统研究领域，enhanced_reranking_hyde_text-embedding-3-small_queries_with_top5_chunks_answers_Qwen3-0.6B数据集通过整合多个权威子集构建而成。该数据集采用文本嵌入技术，对每个查询生成前五个相关文档片段，并利用Qwen3-0.6B模型生成对应答案。构建过程涉及从CQADupStack英语论坛、FEVER事实验证、FiQA金融问答及自然问题等多样化来源提取数据，确保覆盖不同领域的查询场景。每个样本均包含查询标识、原始问题、候选文档列表及模型生成的响应，形成了层次化的数据结构。

使用方法

针对增强型检索与重排序任务，该数据集提供了标准化的应用框架。研究人员可基于查询标识与候选文档列表，构建检索系统并评估重排序算法的有效性。生成答案字段允许直接对比模型输出与参考响应，适用于问答生成任务的性能分析。数据集支持跨配置实验，用户可分别针对技术讨论、事实验证等场景进行领域适应性研究。通过加载指定子集的训练分割，开发者能够快速构建基准测试环境，推动检索-生成一体化模型的迭代优化。

背景与挑战

背景概述

在信息检索与自然语言处理领域，增强型重排序技术正逐渐成为提升问答系统性能的关键手段。该数据集由研究团队于近期构建，旨在探索基于Hypothetical Document Embeddings（HyDE）的文本嵌入方法在文档重排序任务中的应用。通过整合CQADupStack、FEVER、FiQA及NQ等多个权威问答子集，该资源聚焦于利用生成式语言模型合成假设性答案，进而优化检索结果的相关性排序。其核心研究问题在于如何有效结合生成模型与嵌入技术，以解决复杂查询下的文档匹配难题，对推动智能问答系统的精准化发展具有显著影响力。

当前挑战

该数据集致力于应对开放域问答中文档重排序的挑战，包括处理多源异构数据的语义一致性、以及提升长文本上下文的匹配精度。在构建过程中，研究人员面临生成答案的质量控制难题，需确保合成文本既符合查询意图又保持事实准确性；同时，整合不同子集时存在标注格式与规模差异，要求精细的数据清洗与对齐策略，以维持整体数据集的可靠性与泛化能力。

常用场景

经典使用场景

在信息检索与问答系统领域，该数据集通过整合查询、相关文档片段及生成式答案，为文档重排序任务提供了标准化评估框架。其典型应用体现在利用HyDE方法生成假设性答案，结合文本嵌入技术优化检索结果，显著提升了多源知识库中答案的准确性与相关性。

解决学术问题

该数据集有效应对了开放域问答中语义匹配模糊与文档排序噪声的学术挑战。通过引入生成式答案与真实标注的对比机制，为评估嵌入模型泛化能力与重排序算法鲁棒性提供了基准，推动了检索增强生成技术在语义理解层面的理论突破。

实际应用

实际部署中，该数据集支撑了金融咨询与事实核查系统的智能化升级。例如在FiQA测试集上，通过分析用户查询与生成答案的关联性，辅助构建高精度投资建议引擎；在FEVER测试集中则用于验证事实声明与证据文档的逻辑一致性，强化可信信息过滤能力。

数据集最近研究