SKIML-ICL/hoh
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/SKIML-ICL/hoh
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: qid
dtype: int64
- name: question
dtype: string
- name: answers
list: string
- name: conflict_passage
dtype: string
- name: conflict_time
dtype: timestamp[s]
- name: current_time
dtype: timestamp[s]
- name: document_title
dtype: string
- name: document_id
dtype: string
- name: all_outdated_infos
list:
- name: answer
dtype: string
- name: evidence
dtype: string
- name: last_modified_time
dtype: timestamp[s]
- name: ctxs
list:
- name: pid
dtype: int64
- name: rank
dtype: int64
- name: score
dtype: float64
- name: text
dtype: string
- name: title
dtype: string
- name: hasanswer
dtype: bool
- name: nli
dtype: string
- name: answerable
dtype: string
- name: answerable_prefix
list: string
- name: is_valid_conflict_passage
dtype: bool
- name: conflict_answers
list: string
- name: context
dtype: string
splits:
- name: test
num_bytes: 47251219
num_examples: 829
download_size: 23724652
dataset_size: 47251219
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
---
提供机构:
SKIML-ICL
搜集汇总
数据集介绍

构建方式
在信息检索与问答系统的研究领域中,知识的时间敏感性已成为不可忽视的挑战。为精准刻画模型应对知识过时与信息冲突的能力,hoh数据集应运而生。该数据集以精心设计的问答对为核心,每一条样本均包含问题、答案列表以及可能引发冲突的过时段落(conflict_passage)。构建过程严格遵循时间逻辑,为每个问答对标注了冲突发生时间(conflict_time)与当前时间(current_time),并系统性地收集了所有过时信息(all_outdated_infos),涵盖过时答案、证据及其最后修改时间。此外,数据集在上下文(ctxs)中引入了基于检索的相关段落,赋予每个段落以相关性评分(score)和蕴含关系标签(nli),形成多层信息交织的复杂场景。通过设置answerable与is_valid_conflict_passage等布尔字段,构建者得以精细控制样本的有效性与可回答性,最终凝聚为829条高难度测试样本,专为评估模型在时间敏感与信息冲突条件下的推理鲁棒性而设计。
特点
hoh数据集的显著特征在于其对时间维度与信息冲突的深度耦合。每一条样本均内嵌明确的时间戳,将问题、答案与过时信息锚定在具体的时间轴上,形成动态知识图谱的微观切片。冲突段落(conflict_passage)的设计尤为精妙,它并非简单的错误信息,而是带有历史时效性的真实过时证据,迫使模型在矛盾的信息海洋中甄别真相。数据集还提供了丰富的辅助标签:answerable字段直接揭示问题在当前时间下的可回答性;ctxs中的nli标签则从自然语言推理角度,为每个检索段落标注与问题及答案的逻辑关系。这种多维度的标注体系,使得hoh不仅是问答评测集,更成为研究模型时间感知、事实一致性及抗干扰能力的理想试验场。其紧凑的样本规模(829条测试数据)与高密度的信息荷载,确保每一次评测都能深刻反映模型在处理时间敏感查询时的细微缺陷。
使用方法
hoh数据集主要面向需要时间感知能力的问答系统与信息检索模型,提供标准化的测试基准。用户可首先加载其唯一配置的测试拆分,利用question字段作为查询输入,以conflict_passage或ctxs中的text字段作为上下文材料,驱动模型生成或选择答案。在评估环节,可借助answers字段作为标准参考答案,同时利用conflict_answers字段检验模型是否错误地采信了过时信息。answerable字段为衡量模型判别何时不应回答提供了明确标准,适合进行可回答性分类任务的训练与评测。对于更精细的分析,all_outdated_infos字段可追溯每条样本的知识失效历程,从而诊断模型对时间线索的利用效率。数据集兼容HuggingFace的datasets库加载方式,用户只需指定路径即可一键获取,并支持转换为PyTorch或TensorFlow张量格式,无缝融入现有实验框架。
背景与挑战
背景概述
hoh数据集由研究团队于近期创建,旨在应对开放域问答系统中因实体属性随时间演进而产生的答案过时问题。在信息检索与问答领域,传统方法多假设知识静态不变,然而现实世界中的事实(如人物职务、组织状态)常发生变更,导致模型基于过时信息给出错误答案。该数据集核心研究问题聚焦于如何检测并纠正问答场景中的时序语义冲突,其通过人工标注的冲突样本与多时间戳证据,为评估模型的时间感知能力提供了基准。作为首个系统探索问答时变性的资源,hoh推动了时序问答、知识更新及动态信息检索等方向的研究,对提升AI系统在实时场景下的可靠性具有显著影响力。
当前挑战
该数据集面临的挑战首先源于领域问题的固有难度:开放域问答中事实的时间动态性要求模型不仅理解语义,还需整合时间逻辑以区分有效信息与过时内容,而现有模型普遍缺乏显式的时间建模能力。构建过程中需精确对齐问题、冲突文本、旧答案及时间戳,确保跨时段证据的语义一致性,且人工标注需识别细微的时变歧义(如职位更换与名称变动),导致数据构建成本高昂。此外,冲突样本的稀疏性(仅测试集含829例)限制了模型训练,而不同时间粒度的融合(如秒级与长期变更)进一步增加了评估复杂性,使得鲁棒的时间感知问答系统设计成为持续挑战。
常用场景
经典使用场景
在信息检索与问答系统的前沿探索中,hoh数据集以其独特的矛盾时序结构,成为评估模型时效性推理能力的里程碑式资源。该数据集精心构建了包含时间戳的问题、过时答案、冲突性文档及多轮上下文信息,经典地用于训练和测试模型在动态知识环境下的鲁棒性。研究者通过要求模型在存在过时信息与最新证据的冲突中,精准判断并生成正确答案,从而模拟现实世界中知识快速演变的复杂场景。
实际应用
在实际应用层面,hoh数据集所倡导的动态知识更新机制,直接助力于智能客服、金融资讯摘要和学术文献追踪等领域的系统迭代。例如,在实时新闻问答中,模型需依据最新事件报道修正过时观点;在医疗知识库维护中,算法能自动识别并规避已撤刊的研究结论。这类应用不仅提升了信息服务的可靠性,更为知识密集型行业的自动化决策赋予了时间敏感的精准触达能力。
衍生相关工作
基于hoh数据集的引领作用,衍生出了一系列里程碑式工作,包括时序事实检索器、矛盾感知生成模型以及动态知识图谱补全方法。例如,研究者借鉴其冲突文档设计理念,开发了时序注意力机制与时间感知对比学习框架,将时间信息编码融入Transformer结构。这些衍生工作不仅拓展了数据集的应用边界,更确立了时间维度在自然语言处理中的核心地位,成为后续研究知识演化与信息过时问题的基石。
以上内容由遇见数据集搜集并总结生成



