temporalpeople-reasoning-chat-test

Hugging Face2025-07-24 更新2025-07-25 收录

下载链接：

https://huggingface.co/datasets/danielfein/temporalpeople-reasoning-chat-test

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估语言模型理解时间关系和关于人物及组织（尤其是体育运动员和团队）事实能力的时序推理数据集。数据集格式化为聊天对话，包含用户和助手角色。测试集包含19664个示例，每个示例都包含一个唯一的标识符、聊天对话、语句类型、语句真实时间的ISO时间戳和评估标签。

创建时间：

2025-07-24

原始信息汇总

danielfein/temporalpeople-reasoning-chat-test 数据集概述

数据集描述

这是一个用于评估语言模型理解时间关系和人物/组织事实能力的时间推理数据集（特别针对体育运动员和球队）。
数据集格式为包含用户问题和助手回答的聊天对话。
这是时间推理数据集的测试集。

数据集结构

测试集 (`test`)

数量: 19,664个示例
格式: 包含用户/助手角色的聊天对话
列字段:
- source_id: 示例的唯一标识符
- conversation: 包含"role"（用户/助手）和"content"的字典列表
- text_type: 陈述类型（start, end, single_hop, multi_hop）
- text_timestamp: 陈述为真时的ISO时间戳
- evaluation_label: 测试的能力类型（factual_accuracy, duration_accuracy, multi_hop_accuracy）
- split: 固定为"test"

评估能力

数据集测试三种关键时间推理能力：

事实准确性（1,800个示例）：特定时间戳的基础事实检索
持续时间准确性（0个示例）：理解和表达时间持续时间
多跳推理准确性（17,864个示例）：需要多步推理的复杂推理

使用方式

python from datasets import load_dataset

test_dataset = load_dataset("danielfein/temporalpeople-reasoning-chat-test")

示例：获取所有事实准确性测试案例

factual_tests = test_dataset.filter(lambda x: x[evaluation_label] == factual_accuracy)

示例对话格式：

example = test_dataset[0] print(example[conversation])

分割策略

数据集采用混合实体分割：

70%的实体在训练集中包含所有模板类型
30%的实体在训练集中仅包含1-2种模板类型，其余类型在测试集中
用于测试对部分可见实体的未见模板类型的泛化能力

引用要求

使用本数据集时，请引用原始temporalpeople数据集和此时间推理扩展。

搜集汇总

数据集介绍

构建方式

在时序推理研究领域，danielfein/temporalpeople-reasoning-chat-test数据集采用对话式结构构建，聚焦于体育运动员和团队的时间维度关系理解。该测试集包含19,664条经过严格标注的对话样本，每条数据均包含唯一标识符、角色标注的对话内容、陈述类型分类、ISO标准时间戳以及三种评估标签。数据构建采用混合实体划分策略，70%实体包含完整模板类型，30%实体仅保留部分模板类型，以此检验模型对部分可见实体的泛化能力。

特点

作为专业时序推理评估工具，该数据集突出体现三大核心特征：对话形式的自然交互模拟支持端到端评估；精细的时间标注体系涵盖单时间点事实、持续时间和多跳推理等复杂场景；特别设计的18,864条多跳推理样本为模型时序逻辑能力提供严格测试基准。评估维度设置兼顾基础事实检索与高阶时序推理，为语言模型时间理解能力提供多角度衡量标准。

使用方法

通过HuggingFace数据集库可便捷加载该资源，标准接口支持灵活的数据筛选与处理。研究者可依据evaluation_label字段快速提取特定评估类型的样本，如事实准确性测试案例。数据集采用列表嵌套字典的标准对话格式，每条记录包含完整的角色标注和对话内容，支持直接用于模型微调或零样本评估。典型应用场景包括时序推理能力基准测试、对话系统时间理解模块优化等研究方向。

背景与挑战

背景概述

temporalpeople-reasoning-chat-test数据集由Daniel Fein等人构建，专注于评估语言模型在理解时间关系和人物组织事实方面的能力，尤其针对体育运动员和团队。该数据集以对话形式呈现，包含用户提问和助手回答，旨在测试模型在时间推理任务中的表现。其核心研究问题聚焦于语言模型能否准确处理时间相关的多跳推理、事实检索和持续时间理解等复杂任务，为时间敏感型问答系统的开发提供了重要基准。

当前挑战

该数据集面临的主要挑战包括：在领域问题层面，时间推理任务要求模型具备处理动态变化信息的能力，如运动员转会记录或团队历史数据，这对模型的时序理解和多跳推理能力提出了较高要求；在构建过程中，数据采集需确保时间标注的精确性和一致性，同时平衡不同推理难度（单跳与多跳）的样本分布，以全面评估模型性能。此外，对话形式的构建还需考虑自然语言表达的多样性和时间逻辑的复杂性。

常用场景

经典使用场景

在自然语言处理领域，时间推理能力是评估语言模型智能水平的重要维度。该数据集通过模拟真实对话场景，专门设计用于测试模型对体育领域人物及组织时间关联性事实的理解能力。其独特的对话式结构和多跳推理任务设置，为研究者提供了评估模型时序认知能力的标准化测试平台。

实际应用

在实际应用层面，该数据集可广泛应用于智能问答系统的时序理解模块优化、体育资讯类聊天机器人的事实核查功能开发，以及动态知识图谱的时效性推理引擎测试。其对话式评估框架特别适合检验虚拟助手在处理涉及球员转会历史、球队赛季表现等时效敏感型查询时的响应准确性。

衍生相关工作

基于该数据集的时间推理评估范式，已衍生出多项重要研究工作。包括时序知识增强的预训练方法、多跳推理的注意力机制优化，以及动态实体表示学习等创新方向。部分研究进一步扩展了评估维度，将原始数据集与体育赛事数据库结合，构建了更复杂的跨年度赛季分析评估体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集