five

enhanced_reranking_hyde_text-embedding-3-small_queries_with_top5_chunks_answers_Qwen3-4B

收藏
Hugging Face2025-11-13 更新2025-11-14 收录
下载链接:
https://huggingface.co/datasets/DLBDAlkemy/enhanced_reranking_hyde_text-embedding-3-small_queries_with_top5_chunks_answers_Qwen3-4B
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含四个配置:cqadupstack_english、fever_test、fiqa_test和nq。每个配置都包括查询ID、查询、top_5_doc_ids、top_5_chunks、提示和生成答案等特征。fever_test和fiqa_test还包括gt_doc_ids和gt_doc_chunks。数据集的划分信息显示了训练集中的示例数量和字节数。数据文件及其路径也列在每个配置中。README中没有提供数据集的明确描述。
创建时间:
2025-11-05
原始信息汇总

数据集概述

基本信息

  • 数据集名称: enhanced_reranking_hyde_text-embedding-3-small_queries_with_top5_chunks_answers_Qwen3-4B
  • 来源平台: Hugging Face
  • 数据集地址: https://huggingface.co/datasets/DLBDAlkemy/enhanced_reranking_hyde_text-embedding-3-small_queries_with_top5_chunks_answers_Qwen3-4B

数据集配置

cqadupstack_english配置

  • 特征字段:
    • query_id: 字符串类型
    • query: 字符串类型
    • top_5_doc_ids: int64列表
    • top_5_chunks: 字符串列表
    • prompt: 字符串类型
    • generated_answer: 字符串类型
  • 数据分割:
    • train: 1,570个样本,10,662,660字节
  • 下载大小: 5,158,396字节
  • 数据集大小: 10,662,660字节

fever_test配置

  • 特征字段:
    • query_id: int64类型
    • query: 字符串类型
    • top_5_doc_ids: 字符串列表
    • top_5_chunks: 字符串列表
    • prompt: 字符串类型
    • generated_answer: 字符串类型
    • gt_doc_ids: 字符串列表
    • gt_doc_chunks: 字符串列表
  • 数据分割:
    • train: 6,666个样本,90,270,301字节
  • 下载大小: 44,349,348字节
  • 数据集大小: 90,270,301字节

fiqa_test配置

  • 特征字段:
    • query_id: int64类型
    • query: 字符串类型
    • top_5_doc_ids: int64列表
    • top_5_chunks: 字符串列表
    • prompt: 字符串类型
    • generated_answer: 字符串类型
    • gt_doc_ids: 字符串列表
    • gt_doc_chunks: 字符串列表
  • 数据分割:
    • train: 648个样本,11,692,055字节
  • 下载大小: 6,500,127字节
  • 数据集大小: 11,692,055字节

nq配置

  • 特征字段:
    • query_id: 字符串类型
    • query: 字符串类型
    • top_5_doc_ids: 字符串列表
    • top_5_chunks: 字符串列表
    • prompt: 字符串类型
    • generated_answer: 字符串类型
    • gt_doc_ids: 字符串列表
    • gt_doc_chunks: 字符串列表
  • 数据分割:
    • train: 3,452个样本,28,127,683字节
  • 下载大小: 15,590,935字节
  • 数据集大小: 28,127,683字节

数据文件结构

  • cqadupstack_english配置: cqadupstack_english/train-*
  • fever_test配置: fever_test/train-*
  • fiqa_test配置: fiqa_test/train-*
  • nq配置: nq/train-*
搜集汇总
数据集介绍
构建方式
在信息检索与问答系统研究领域,enhanced_reranking_hyde_text-embedding-3-small_queries_with_top5_chunks_answers_Qwen3-4B数据集通过多源知识库整合构建而成。该数据集融合了cqadupstack_english、fever_test、fiqa_test和nq四个子集,每个子集均包含查询标识、原始问题、前五相关文档片段及其标识、提示模板以及由Qwen3-4B模型生成的答案。构建过程中采用分层抽样策略,确保覆盖不同领域的查询场景,例如fever_test子集特别标注了真实答案文档标识,为验证检索准确性提供基准。
特点
该数据集的核心特征体现在其多维度结构化设计上。每个查询实例关联五个候选文档片段,并配备自动生成的深度答案,形成查询-文档-答案的三元组架构。不同子集具有领域特异性:cqadupstack_english专注于技术问答,fiqa_test聚焦金融领域,nq涵盖开放域知识,而fever_test则提供事实验证场景。数据集规模呈现梯度分布,从fiqa_test的648个样本到fever_test的6666个样本,这种设计便于研究者在不同数据密度条件下评估模型性能。
使用方法
研究者可依据特定实验需求选择相应子集进行模型训练与评估。对于检索增强生成任务,可通过查询字段与top_5_chunks的对应关系构建文档重排序 pipeline。生成答案字段为评估大语言模型的事实一致性提供参照基准,而gt_doc_ids字段在fever_test等子集中可作为排序质量的黄金标准。数据加载时需注意不同子集的标识符类型差异,如cqadupstack_english采用字符串型query_id,其他子集则使用整型标识,这种设计支持跨数据源的异构检索研究。
背景与挑战
背景概述
在信息检索与自然语言处理领域,增强重排技术致力于提升文档检索的准确性与语义理解深度。该数据集整合了CQADupStack、FEVER、FiQA及NQ等多个权威评测基准,通过text-embedding-3-small模型生成查询向量,并融合Qwen3-4B模型构建生成式答案,旨在探索基于假设文档嵌入(HyDE)的跨域重排机制。其设计聚焦于解决复杂查询场景下的语义匹配瓶颈,为开放域问答与事实验证任务提供了结构化实验数据,推动了检索增强生成(RAG)范式的演进。
当前挑战
构建过程中面临多重挑战:跨领域数据整合需协调不同来源的标注规范与质量差异,例如FEVER的声明验证与FiQA的金融问答存在语义粒度冲突;生成答案的可靠性依赖语言模型的幻觉抑制能力,需平衡生成多样性与事实一致性。领域问题层面,该数据集针对的密集检索重排任务需克服语义相似性计算的模糊性,尤其在多跳推理场景中,模型需同时解析长文档片段间的逻辑关联与噪声干扰。
常用场景
经典使用场景
在信息检索与问答系统研究中,该数据集通过整合查询、相关文档片段及生成式答案,为文档重排序任务提供了标准化评估框架。其典型应用场景包括利用HyDE技术生成假设性答案,结合文本嵌入模型对候选文档进行语义相似度计算,从而优化检索结果的准确性与相关性。
解决学术问题
该数据集有效解决了开放域问答中文档检索精度不足的学术难题,通过引入生成式答案增强语义匹配,显著提升了稀疏查询下的召回率。其多领域子集设计为跨任务泛化性研究提供了实证基础,推动了检索增强生成技术在噪声容忍与语义对齐方面的理论进展。
衍生相关工作
基于该数据集衍生的经典研究包括融合对抗训练的鲁棒性重排序模型,以及针对长文本理解的层次化注意力机制。这些工作进一步拓展了多模态检索中的跨域迁移学习范式,并为稠密段落检索系统的端到端优化提供了可复现的基准方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作