LegalCore

Name: LegalCore
Creator: 德克萨斯A&M大学计算机科学与工程学院, Adobe Research
Published: 2025-02-18 11:47:53
License: 暂无描述

arXiv2025-02-18 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.12509v1

下载链接

链接失效反馈

官方服务：

资源简介：

LegalCore是一个针对法律领域的第一个事件及其共指信息注释的数据集。该数据集由德克萨斯A&M大学和Adobe Research共同创建，包含100个法律合同文档，总计约25万个tokens。数据集以法律合同文档为对象，这些文档的长度远超新闻文章，平均每个文档约2.5万个tokens。数据集不仅标注了个别事件提及，还标注了事件之间的共指关系，包括跨章节的远距离共指链接。该数据集旨在推动法律领域事件共指消解的研究，并可用于评估大型语言模型在事件识别和事件共指消解任务上的性能。

LegalCore is the first annotated dataset focused on events and their coreferential information in the legal domain. Co-created by Texas A&M University and Adobe Research, the dataset comprises 100 legal contract documents, with a total of approximately 250,000 tokens. The target documents of this dataset are legal contracts, which are considerably longer than news articles, with an average length of about 25,000 tokens per document. In addition to annotating individual event mentions, the dataset also labels coreferential relationships between events, including long-distance cross-chapter coreferential links. This dataset is designed to promote research on event coreference resolution in the legal field, and can be utilized to evaluate the performance of large language models (LLMs) on the tasks of event recognition and event coreference resolution.

提供机构：

德克萨斯A&M大学计算机科学与工程学院, Adobe Research

创建时间：

2025-02-18

搜集汇总

数据集介绍

构建方式

LegalCore数据集的构建过程分为三个阶段：事件提及标注、局部共指标注和非局部共指标注。首先，标注者在每个法律合同文档中标注事件提及，不受事件类型的限制。然后，标注者识别同一文档内同一部分的事件提及之间的局部共指关系。最后，标注者标注跨越不同部分的事件提及之间的非局部共指关系。LegalCore数据集包含100份法律合同文档，约25万个标记，平均每份文档约2.5万个标记，是现有事件标注数据集中最大的。

特点

LegalCore数据集的特点是法律合同文档的平均长度远超过新闻文章，每份文档平均包含约2.5万个标记。数据集包含了密集的事件提及，并且在事件提及之间存在短距离和超长距离的共指链接。LegalCore数据集是目前第一个针对法律领域的事件共指解析数据集，为研究法律领域的事件共指解析提供了重要的资源。

使用方法

LegalCore数据集可用于事件识别和事件共指解析任务。用户可以使用数据集中的事件提及和共指链接信息来训练和评估模型。数据集还包含了对主流大型语言模型（LLMs）在事件识别和事件共指解析任务上的性能基准测试结果，可以帮助用户了解LLMs在法律领域事件共指解析任务上的性能表现。

背景与挑战

背景概述

在自然语言处理（NLP）领域，事件核心消解是一个关键的研究课题，它对于理解文本的语义意义至关重要。现有的研究主要集中在新闻文章上，而对法律领域的关注相对较少。为此，Wei等人于2025年创建了LegalCore数据集，这是一个为法律领域量身定制的、包含全面事件和事件核心消解信息的标注数据集。该数据集包含了100份法律合同文件，每份文件的平均长度约为25k个token，远远超过新闻文章的长度。LegalCore的创建填补了法律领域事件核心消解研究的数据空白，为该领域的研究提供了重要的资源。

当前挑战

LegalCore数据集的创建和应用面临多项挑战。首先，法律文件通常包含密集的事件提及和跨章节的长期核心消解链接，这要求NLP模型能够有效地处理长距离依赖关系。其次，现有的主流大型语言模型（LLMs）在事件识别和事件核心消解任务上的表现均显著劣于监督基准，这表明LLMs在处理法律文件方面存在一定的局限性。此外，LegalCore数据集仅包含一种类型的法律文件，即法律合同，未来可以进一步扩展到其他类型的法律文件，以丰富数据集的多样性。最后，LegalCore目前仅涵盖核心消解关系，未来可以进一步标注其他事件关系，如时间关系和因果关系，以提高数据集的实用性和研究价值。

常用场景

经典使用场景

LegalCore 数据集主要应用于法律文本中的事件识别和事件共指消解任务。事件识别旨在识别文本中描述的任何发生、行为、过程或状态，而事件共指消解则是将指代相同事件的提及进行分组。该数据集的构建旨在解决现有研究主要集中在新闻报道领域的问题，而法律文本中事件提及密集且存在短距离和超长距离共指链接的特点，为事件共指消解任务带来了新的挑战。

衍生相关工作

LegalCore 数据集的发布为事件共指消解研究提供了新的方向和数据支持，并促进了相关研究的发展。基于 LegalCore 数据集，研究人员可以进行更深入的分析和研究，例如探索法律文本中事件共指消解的规律，开发更有效的模型和方法，以及将相关研究成果应用于实际应用中。此外，该数据集还可以为其他领域的事件共指消解研究提供参考和借鉴。

数据集最近研究