google-research-datasets/time_dial

Name: google-research-datasets/time_dial
Creator: google-research-datasets
Published: 2024-01-18 11:17:11
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/time_dial

下载链接

链接失效反馈

官方服务：

资源简介：

TimeDial是一个专注于对话中时间常识推理的英语数据集，包含约1.5k精心策划的多项选择完形填空任务对话。该数据集从DailyDialog中提取，旨在通过复杂的时序推理任务挑战模型。它包括一个由1,104个对话实例组成的测试集，每个实例都包含涉及时间表达式的多项选择完形填空任务。该数据集由英语语言学家进行注释。

提供机构：

google-research-datasets

原始信息汇总

数据集概述

数据集基本信息

名称: TimeDial: Temporal Commonsense Reasoning in Dialog
语言: 英语
许可证: CC BY-NC-SA 4.0
多语言性: 单语种
大小: 10K<n<100K
源数据: 原始数据
任务类别: 文本分类
任务ID: 多标签分类
标签: dialog-act-classification

数据集结构

数据实例

json { "id": 1, "conversation": [ "A: We need to take the accounts system offline to carry out the upgrade . But dont worry , it wont cause too much inconvenience . Were going to do it over the weekend .", "B: How long will the system be down for ?", "A: Well be taking everything offline in about two hours time . Itll be down for a minimum of twelve hours . If everything goes according to plan , it should be up again by 6 pm on Saturday .", "B: Thats fine . Weve allowed <MASK> to be on the safe side ." ], "correct1": "forty-eight hours", "correct2": "50 hours ", "incorrect1": "two hours ", "incorrect1_rule": "Rule 1", "incorrect2": "12 days ", "incorrect2_rule": "Rule 2" }

数据字段

id: 唯一标识符，整数类型
conversation: 包含<MASK>的对话上下文，字符串类型
correct1: 原始<MASK>内容，字符串类型
correct2: 标注者提供的另一个正确选项，字符串类型
incorrect1: 标注者提供的第一个错误选项，字符串类型
incorrect1_rule: 错误选项的规则，字符串类型
incorrect2: 标注者提供的第二个错误选项，字符串类型
incorrect2_rule: 错误选项的规则，字符串类型

数据分割

测试集: 包含1,104个对话实例，每个实例有2个正确选项和2个错误选项

数据集创建

数据收集和标注

源数据: 来自DailyDialog数据集
标注过程:
1. 识别包含丰富时间表达的对话
2. 请求人工标注者提供正确和错误的选项
标注者: 英语语言学家

数据集使用注意事项

许可证: CC BY-NC-SA 4.0
引用信息: @inproceedings{qin-etal-2021-timedial, title = "{TimeDial: Temporal Commonsense Reasoning in Dialog}", author = "Qin, Lianhui and Gupta, Aditya and Upadhyay, Shyam and He, Luheng and Choi, Yejin and Faruqui, Manaal", booktitle = "Proc. of ACL", year = "2021" }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，时序常识推理是理解对话深层含义的关键环节。TimeDial数据集的构建始于对DailyDialog语料库的深度筛选，通过SU-Time工具自动识别富含数字型时间表达的多轮对话，确保所选实例具备复杂时序推理的潜力。随后，专家语言学家对每个掩码时间跨度进行人工标注，不仅保留原始正确选项，还创造性地提供替代正确选项及两类错误选项，这些错误选项依据短语匹配、数字匹配或开放规则精心设计，从而构建出包含约1.5k个对话实例的挑战性测试集。

特点

TimeDial数据集以其专注于多轮对话中的时序常识推理而独树一帜。每个数据实例包含完整的对话上下文及一个掩码时间表达，并配备两个正确选项和两个依据特定规则构造的错误选项，这为模型区分浅层文本匹配与深层时序推理提供了清晰基准。数据规模适中，约1.5k个实例，平均每个对话包含11.7个话轮和3个时间跨度，确保了评估的集中性与深度。该数据集作为纯测试集发布，直接面向模型在复杂、自然对话语境下的时序理解能力评估。

使用方法

该数据集主要用于评估和提升语言模型在对话语境下的时序常识推理能力。研究者可直接加载测试集，将对话上下文与掩码位置作为输入，要求模型从四个候选选项（两个正确、两个错误）中做出选择，以此衡量模型是否超越了简单的文本匹配，真正实现了对时间信息的比较、算术运算及常识推理。典型应用包括作为下游任务的基准测试，或用于分析模型在时序推理上的常见错误模式，从而指导更鲁棒的模型设计与训练策略。

背景与挑战

背景概述

在自然语言处理领域，时序常识推理是对话系统理解人类交互深层语义的关键环节。TimeDial数据集由谷歌研究院于2021年创建，旨在系统探究多轮对话中的时序常识推理问题。该数据集基于DailyDialog语料库构建，通过专家标注生成了约1.5万个对话实例，以完形填空形式呈现。其核心研究聚焦于模型对时序表达的比较与算术运算能力，揭示了现有语言模型在复杂时序推理上的局限性，为对话智能体的认知深度评估提供了重要基准。

当前挑战

TimeDial数据集主要应对两大挑战：在领域问题层面，它旨在解决多轮对话中时序常识推理的复杂性，包括对模糊时间表达的解析、跨话轮时序逻辑的连贯性维持，以及常识知识与数值计算的融合。在构建过程中，挑战体现在时序表达的高精度筛选，需通过SU-Time工具从海量对话中识别含数字的时序片段；同时，标注过程要求语言学家在保持对话自然性的前提下，创造性生成符合常识的替代正确答案与违背逻辑的干扰项，这对标注者的语言学素养与逻辑一致性提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，时序常识推理是对话系统理解人类交互深层含义的关键环节。TimeDial数据集通过精心构建的多轮对话填空任务，为模型评估提供了标准化测试平台。该数据集源自DailyDialog语料库，筛选富含数字时间表达的对话片段，并掩码关键时间信息形成选择题。研究者利用这一结构，能够系统检验语言模型在复杂时序语境下的推理能力，例如比较不同时间跨度或进行算术运算，从而揭示模型是否真正掌握时间常识而非依赖表面文本匹配。

衍生相关工作

围绕TimeDial数据集，学术界衍生出多项经典研究工作，进一步拓展了时序推理的研究边界。部分研究聚焦于改进预训练语言模型的架构，引入专门的时间感知模块以增强数值计算能力；另一些工作则探索多任务学习框架，将时序推理与对话状态跟踪相结合。这些衍生成果不仅深化了对时间常识表征的理解，也为构建更通用、更可靠的对话智能体提供了方法论指导，持续推动着自然语言处理向更深层次的认知推理迈进。

数据集最近研究