HoH

github2025-05-31 更新2025-06-03 收录

下载链接：

https://github.com/0russwest0/HoH

下载链接

链接失效反馈

官方服务：

资源简介：

HoH是第一个大规模基准测试，旨在评估检索增强生成（RAG）在过时信息影响下的鲁棒性。该基准测试利用令牌级差异算法结合LLM管道，高效创建了一个大规模QA数据集，准确捕捉了现实世界事实中的时间知识演变。

HoH is the first large-scale benchmark designed to evaluate the robustness of Retrieval-Augmented Generation (RAG) against outdated information. By combining token-level difference algorithms with LLM pipelines, this benchmark efficiently constructs a large-scale QA dataset that accurately captures the temporal evolution of factual knowledge within real-world facts.

创建时间：

2025-05-31

原始信息汇总

HoH 数据集概述

基本信息

数据集名称: HoH (How Outdated Information Harms Retrieval-Augmented Generation)
论文标题: HoH: A Dynamic Benchmark for Evaluating the Impact of Outdated Information on Retrieval-Augmented Generation
会议/年份: ACL 2025
论文链接: https://arxiv.org/abs/2503.04800
数据集链接: https://huggingface.co/datasets/russwest404/HoH-QAs

研究背景

检索增强生成（RAG）是解决大语言模型（LLM）知识过时问题的有效方法，但其面临知识库中过时信息的关键挑战。

数据集目标

评估RAG在过时信息影响下的鲁棒性。
揭示过时信息如何显著降低RAG性能（如降低回答准确性并可能导致有害输出）。

数据集特点

规模: 首个大规模基准测试。
构建方法: 结合token-level diff算法和LLM pipeline，高效创建大规模QA数据集。
核心特征: 准确捕捉现实世界事实中的时间知识演变。

引用格式

bibtex @misc{ouyang2025hohdynamicbenchmarkevaluating, title={HoH: A Dynamic Benchmark for Evaluating the Impact of Outdated Information on Retrieval-Augmented Generation}, author={Jie Ouyang and Tingyue Pan and Mingyue Cheng and Ruiran Yan and Yucong Luo and Jiaying Lin and Qi Liu}, year={2025}, eprint={2503.04800}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.04800}, }

搜集汇总

数据集介绍

构建方式

在信息检索与生成领域，知识时效性对模型性能的影响日益凸显。HoH数据集通过创新的构建方法，采用词级差异算法与大型语言模型流水线相结合的技术路径，从真实世界事实中捕捉知识的时间演化特征。研究团队精心设计了一套自动化流程，首先从动态更新的知识库中提取不同时间节点的信息快照，继而通过对比分析生成反映知识变迁的问题-答案对，最终构建起规模可观且具有时序标注的评估基准。

特点

作为首个专注于评估检索增强生成模型在过时信息影响下鲁棒性的大规模基准，HoH数据集具有鲜明的时序特性与实用价值。该数据集包含多层次的知识演化轨迹，每个问题都关联着不同时间版本的标准答案，能够精确量化信息时效性对生成质量的影响。特别值得注意的是，数据集覆盖了广泛的事实类型和领域，其构建过程中充分考虑了知识更新的自然频率和现实场景中的信息衰减模式，为研究检索增强系统的时间敏感性提供了理想的实验平台。

使用方法

该数据集主要服务于检索增强生成系统的时效性评估研究，使用者可通过对比模型在不同时间版本答案上的表现，系统分析过时信息对生成结果的影响机制。实验设计建议采用时间切片对比法，将测试集按知识更新节点划分，分别测量模型在历史版本和最新版本数据上的性能差异。数据集提供的时序标注支持细粒度的错误归因分析，研究者可据此识别模型最容易受时效性影响的特定知识类型，为开发时间感知的检索策略或知识更新机制提供实证依据。

背景与挑战

背景概述

随着大型语言模型（LLM）在自然语言处理领域的广泛应用，知识过时问题日益凸显。检索增强生成（RAG）技术虽能有效缓解这一问题，但其性能仍受限于知识库中过时信息的干扰。为此，由Jie Ouyang等研究人员于2025年提出的HoH数据集应运而生，成为首个专门评估RAG模型在过时信息影响下鲁棒性的大规模基准。该数据集通过词级差异算法与LLM管道的结合，精准捕捉现实世界知识的时序演变特性，为研究时序知识动态对生成质量的影响提供了重要工具，相关成果已发表于ACL 2025会议。

当前挑战

HoH数据集致力于解决检索增强生成系统面临的核心挑战——知识库时效性对生成结果准确性的影响。构建过程中需攻克多维度难题：在领域问题层面，需量化过时信息导致的响应准确性下降幅度，并识别可能引发的有害输出模式；在技术实现层面，如何通过自动化流程高效构建反映知识演变的问答对，以及确保时间戳标注的精确性，均对数据质量提出极高要求。这些挑战直接关系到评估基准的可靠性与泛化能力。

常用场景

经典使用场景

在自然语言处理领域，HoH数据集为研究检索增强生成（RAG）系统在面对知识库中过时信息时的表现提供了标准化的评估平台。通过模拟真实世界中知识的动态演变，该数据集能够精确捕捉时间因素对信息检索的影响，成为衡量RAG系统鲁棒性的黄金标准。研究人员可利用其构建的问答对，系统性地分析过时信息如何干扰模型的知识更新与答案生成过程。

解决学术问题

该数据集有效解决了当前大语言模型研究中知识时效性评估的空白问题。通过量化分析过时信息对RAG系统准确率的衰减效应，揭示了时间维度在知识密集型任务中的关键作用。其创新的差分算法框架为建立动态知识基准提供了方法论范式，推动了时态敏感型NLP系统的理论研究与算法创新。

衍生相关工作

基于HoH的评估框架，学术界已衍生出多项时态知识建模的创新研究。包括动态检索增强架构T-RAG、知识新鲜度量化指标FreshScore等代表性工作，这些研究通过扩展基准的评估维度，逐步形成了时态敏感NLP的技术体系。后续研究进一步将差分算法应用于多模态知识更新，推动了跨模态时序知识图谱的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集