DateLogicQA|时间推理数据集|自然语言处理数据集

arXiv2024-12-18 更新2024-12-20 收录

时间推理

自然语言处理

下载链接：

https://github.com/gagan3012/EAIS-Temporal-Bias

下载链接

链接失效反馈

资源简介：

DateLogicQA是由阿伯丁大学创建的一个用于评估大语言模型（LLMs）时间推理能力的基准数据集。该数据集包含190个问题，涵盖了多种日期格式、时间背景和推理类型。数据集的设计旨在测试模型在不同时间上下文中对日期的理解和推理能力，特别是对日期格式的处理和语义保持。通过该数据集，研究者可以深入分析LLMs在时间推理任务中的表现，识别和解决模型在处理时间数据时的偏差问题。该数据集的应用领域包括事件规划、历史问题解答等需要精确时间推理的实际场景。

提供机构：

阿伯丁大学

创建时间：

2024-12-18

原始信息汇总

Temporal Bias Analysis in Large Language Models

DateLogicQA Dataset

概述

DateLogicQA 数据集旨在探索大型语言模型（LLMs）如何处理不同格式和上下文中的日期。该数据集包含190个问题，分为四个类别：常识、事实、概念和数值。每个问题都包含七种日期格式之一，并跨越三个时间上下文：过去、现在和未来。这种系统性的变化使得能够深入分析LLMs在处理时间信息时的表现。

示例

数值: 27101446年后的7年和9个月是什么时间？
事实: 以下哪个人死于23041616年？A) 沙贾汗 B) 米格尔·德·塞万提斯 C) 戴安娜王妃 D) 威廉·莎士比亚
概念: 第一部iPhone于29062007年发布。自发布以来已经过去了多少年？
常识: 约翰出生于15-03-1985年。他于01-05-2007年从大学毕业。约翰毕业时是否超过18岁？

日期格式

DDMMYYYY: 23041616
MMDDYYYY: 04231616
DDMonYYYY: 23April1616
DD-MM-YY: 23-04-16
YYYY, Mon DD: 1616, April 23
DD/YYYY (Julian calendar): 113/1616
YYYY/DD (Julian calendar): 1616/113

数据集访问

DateLogicQA 数据集可在 Hugging Face 上获取，访问地址为：https://huggingface.co/datasets/gagan3012/DateLogicQA。

AI搜集汇总

数据集介绍

构建方式

DateLogicQA数据集通过精心设计，涵盖了190个问题，这些问题分布在四种不同的推理类型（常识、事实、概念和数值）中，并涉及七种日期格式和三种时间背景（过去、现在和未来）。这种多样化的设计旨在全面评估大型语言模型（LLMs）在处理不同日期格式和时间背景时的表现。数据集的构建过程中，特别关注了日期在问题中的嵌入方式，以模拟真实世界中日期具有上下文意义的场景，从而测试模型对日期信息的提取和解释能力。

特点

DateLogicQA数据集的主要特点在于其多样性和系统性。它不仅涵盖了多种日期格式，包括常见的和罕见的（如儒略历），还跨越了广泛的时间范围，从历史时期到现代和未来。这种设计使得数据集能够深入分析LLMs在不同时间背景下的表现，尤其是对日期格式和时间推理的敏感性。此外，数据集通过嵌入日期在问题中的方式，强调了日期在上下文中的重要性，从而更真实地反映了实际应用场景。

使用方法

DateLogicQA数据集主要用于评估和分析大型语言模型在时间推理任务中的表现。研究者可以通过该数据集测试模型在不同日期格式和时间背景下的准确性、逻辑推理能力以及对日期信息的理解能力。具体使用方法包括将数据集中的问题输入模型，分析模型的输出结果，并结合语义完整性指标（Semantic Integrity Metric）评估模型的表现。此外，研究者还可以通过人工评估和自动化评估相结合的方式，进一步分析模型在时间推理任务中的偏差和不足，从而为模型的改进提供依据。

背景与挑战

背景概述

DateLogicQA数据集由阿伯丁大学的Gagan Bhatia、MingZe Tang、Cristina Mahanta和Madiha Kazi等人于2024年创建，旨在评估大型语言模型（LLMs）在处理时间推理任务时的表现。该数据集包含190个问题，涵盖多种日期格式、时间背景和推理类型，旨在揭示LLMs在时间推理中的潜在偏差。通过引入语义完整性度量（Semantic Integrity Metric），研究团队分析了模型在处理日期时的嵌入偏差（Representation-Level Bias）和逻辑偏差（Logical-Level Bias），为时间推理任务的准确性提供了深入的评估。DateLogicQA的推出填补了LLMs在时间推理领域评估的空白，尤其在处理复杂日期格式和多时间背景下的推理任务方面具有重要意义。

当前挑战

DateLogicQA数据集面临的挑战主要集中在两个方面：一是解决时间推理任务中的偏差问题，特别是在嵌入层和逻辑推理层中的偏差。嵌入层偏差可能导致日期语义结构的不一致，而逻辑层偏差则可能影响模型在处理日期时的推理输出准确性。二是构建过程中遇到的复杂性，包括处理多种日期格式和时间背景的多样性，以及确保模型在不同时间背景下的推理能力。此外，数据集的设计需要平衡问题的复杂性和模型的可评估性，以确保能够有效揭示LLMs在时间推理中的局限性。

常用场景

经典使用场景

DateLogicQA数据集的经典使用场景主要集中在评估大型语言模型（LLMs）在处理时间推理任务时的表现。该数据集通过190个涵盖不同日期格式、时间背景和推理类型的问题，测试模型在处理日期信息时的准确性和一致性。这些问题包括常识性推理、事实性推理、概念性推理和数值推理，旨在全面评估模型在不同时间背景下的表现。

解决学术问题

DateLogicQA数据集解决了大型语言模型在时间推理任务中的常见学术问题，特别是模型在处理日期信息时的偏差问题。通过引入语义完整性度量（Semantic Integrity Metric），该数据集能够评估模型在不同日期格式下的分词质量和推理输出的一致性。这有助于识别和分析模型在时间推理中的表示层偏差（Representation-Level Bias）和逻辑层偏差（Logical-Level Bias），从而为改进模型的性能提供了重要依据。

衍生相关工作

DateLogicQA数据集的发布激发了大量相关研究工作，特别是在时间推理和分词策略的优化方面。许多研究者基于该数据集提出了改进模型性能的方法，如通过增强预训练数据集的时间多样性、使用直接偏好优化（DPO）进行微调，以及采用检索增强生成（RAG）技术来动态整合外部知识。此外，链式思维提示（Chain of Thought Prompting）等技术也被用于提升模型在复杂时间推理任务中的表现。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Desert Knowledge Australia Solar Centre PV Power Data

该数据集包含来自澳大利亚Alice Springs的Site 7的太阳能发电数据，包括有功功率（AP，kW）、历史温度（T，℃）、相对湿度（RH，%）、全球水平辐照度（GHI，Wh/m²）和漫射水平辐照度（DHI，Wh/m²）。

github 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录