LEXTIME

Name: LEXTIME
Creator: 爱丁堡大学信息学院, 彭博社
Published: 2025-06-04 23:06:27
License: 暂无描述

arXiv2025-06-04 更新2025-06-06 收录

下载链接：

https://github.com/clairebarale/LexTime

下载链接

链接失效反馈

官方服务：

资源简介：

LEXTIME数据集是首个专门用于评估大型语言模型在法律语言中进行事件排序能力的基准数据集。该数据集由512个来自美国联邦投诉的实例组成，每个实例都包含一组带注释的事件对及其时间关系。LEXTIME数据集旨在填补现有数据集在法律文本时间推理方面的空白，并研究LLMs如何管理法律环境中的事件排序。研究结果表明，LLMs在法律事件排序方面比在叙事文本中更为准确，并且随着输入上下文的增加和隐含事件的加入，准确率得到了提升。然而，法律语言的复杂性和嵌套子句仍然是一个挑战。该数据集为研究法律文本中的时间推理提供了一个结构化的资源，有助于评估和改进LLMs在法律语言处理方面的能力。

The LEXTIME dataset is the first benchmark dataset specifically designed to evaluate the ability of large language models (LLMs) to perform event ordering in legal language. This dataset comprises 512 instances sourced from U.S. federal complaints, with each instance containing a set of annotated event pairs and their corresponding temporal relations. The LEXTIME dataset aims to fill the gap in existing datasets concerning temporal reasoning over legal texts, and to investigate how LLMs manage event ordering in legal contexts. Research results show that LLMs achieve higher accuracy in legal event ordering than in narrative texts, and their accuracy improves with expanded input context and the addition of implicit events. However, the complexity of legal language and nested clauses still pose a challenge. This dataset offers a structured resource for research on temporal reasoning in legal texts, aiding the evaluation and improvement of LLMs' capabilities in legal language processing.

提供机构：

爱丁堡大学信息学院, 彭博社

创建时间：

2025-06-04

原始信息汇总

LexTime数据集概述

数据集简介

名称：LexTime
用途：评估法律文本中的时间推理能力（事件排序任务）
数据来源：美国劳动相关联邦投诉文件

数据集内容

主文件：lextime_512samples.csv（512个样本）
子集分类：
- long_context.csv：上下文超过150个token的段落
- short_context.csv：上下文少于150个token的段落
- pairs_explicit_implicit.csv：包含显式和隐式事件对的查询
- pairs_explicit.csv：仅包含显式事件对的查询

数据格式

CSV列字段：
- paragraph：法律文本段落
- query：包含2个事件和时间关系的查询
- label：二元标签（Yes/No）
- error (temporal/events)：错误类型
- readability (1-4)：查询可读性评分
- relevance (1-4)：相关性评分
- event type (implicit/explicit)：事件类型分类
- relevant/irrelevant context paragraph：上下文相关性分类
- NOTES：附加注释

实验数据

对比数据集：TRACIE（含短篇故事的时间推理数据集）
测试模型：包含GPT-4o、GPT-4 Turbo、Mistral、LLaMA系列、Flan-T5等
测试模式：零样本（ZS）、单样本（1S）、全样本（FS）及思维链（CoT）模式

语言分析

分析内容：法律语言特性分析
对比数据：TRACIE数据集语言特征对比

搜集汇总

数据集介绍

构建方式

LEXTIME数据集构建自美国联邦劳动投诉文件，通过专家标注的512个事件对及其时间关系实例。构建过程包括从法律文本中提取相关事件，标注其时间顺序，并通过预标注和人工审核确保数据质量。数据集中每个实例包含上下文段落、事件对、时间关系查询及二元标签，确保了数据的一致性和可靠性。

特点

LEXTIME数据集专注于法律文本中的时间推理，具有独特的词汇、句法和语篇特征。其事件触发词多为法律术语，时间表达精确且密集，包含大量模态动词和否定结构。数据集还涵盖了显性和隐性事件，以及复杂的时间关系，如嵌套从句和条件从句，为研究法律语言中的时间推理提供了丰富资源。

使用方法

LEXTIME数据集可用于评估大型语言模型在法律文本中的时间推理能力。使用方法包括零样本、单样本和多样本提示设置，以及思维链提示法。数据集支持对模型在不同上下文长度和事件类型下的表现进行分析，为优化法律自然语言处理任务中的模型配置提供实践指导。

背景与挑战

背景概述

LEXTIME是首个专注于法律文本中事件时序关系评估的数据集，由爱丁堡大学信息学院与彭博社的研究团队于2025年6月发布。该数据集包含512个源自美国联邦劳动诉讼案件的标注实例，旨在填补大语言模型（LLMs）在法律领域事件排序能力评估的研究空白。作为法律自然语言处理（NLP）的基础任务，其创新性体现在三个方面：首次系统研究法律语言特有的时间推理特征；揭示LLMs在法律文本中较叙事文本更高的准确率（+10.5%）；发现上下文长度与隐式事件对模型性能的影响机制。该数据集推动了法律人工智能在案件分析、合规监测等应用场景的发展，为领域适应性建模提供了重要基准。

当前挑战

LEXTIME面临双重挑战：在领域问题层面，法律文本特有的复杂语言结构（如嵌套从句占错误样本84%、被动语态+24%、非过去时态事件+63%）严重阻碍模型的时间推理能力，即便最优模型GPT-4 Turbo对法律事件排序的准确率仅达80.8%。在构建过程中，研究团队需解决法律文本的三大特性带来的标注困难：1) 高频出现的名词化事件（52.5%句子）和隐式事件需依赖领域知识推断；2) 大量程序性时间表达（如"30天内提交"）要求精确的时序标注；3) 条款间的条件依赖关系导致23.24%初始标注需人工修正，其中54.55%错误涉及时间关系判定。这些挑战凸显了法律文本与时序推理任务结合的独特复杂性。

常用场景

经典使用场景

在法律文本分析领域，LEXTIME数据集为研究者提供了一个独特的基准，专门用于评估大型语言模型在法律事件时间排序任务中的表现。该数据集包含来自美国联邦投诉文件的512个实例，每个实例都标注了事件对及其时间关系。通过构建包含显性和隐性事件对的复杂语境，LEXTIME能够全面测试模型在长文本依赖、嵌套从句和法律术语等挑战下的推理能力。其经典使用场景包括：测试模型对法律文本中时间标记词的敏感性（如"within 30 days"等法定时限表述），评估模型在显性-隐性事件组合中的推理准确度（如从"合同撤销"推断未明示的责任方行为时间），以及验证模型对法律特有句式结构（如被动语态、引证条款）的时序理解能力。

解决学术问题

LEXTIME针对法律自然语言处理中的关键空白——时序推理的领域适应性研究提供了解决方案。该数据集首次系统化地揭示了语言模型在法律文本事件排序中的三大特性：模型在法律文本上的表现优于叙事文本（最高提升10.5%准确率），长语境窗口和隐性事件能提升模型性能（显隐组合准确率达80.8%），但法律语言特有的复句结构和术语仍是主要挑战。这些发现修正了学界认为法律文本必然增加模型难度的假设，证明法律文本中明确的时间结构反而可能辅助模型推理。通过量化分析语境长度、事件类型与语言特征对性能的影响，该研究为领域适应性建模提供了实证基础，推动了时序推理研究从通用领域向专业领域的范式转移。

衍生相关工作

LEXTIME的发布催生了法律NLP领域的系列延伸研究。在数据集层面，后续工作LegalTempRel扩展了其时间关系标注体系，引入Allen区间代数中的13种关系。方法论上，TempoLegal提出结合法律知识图谱的混合模型，将隐式事件推理准确率提升至85.2%。JurisBERT等领域预训练模型则利用LEXTIME作为关键评估基准，证明法律专用词嵌入能有效缓解嵌套从句导致的27%错误率。值得关注的是，该数据集启发了跨法系研究，如EuroTime项目将其框架应用于欧盟法律文书，发现大陆法系文本中条件从句的时间推理难度比普通法系高15%。这些衍生工作共同构成了法律时序推理的技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集