five

Atticus Clause Retrieval Dataset (ACORD)|法律文本处理数据集|合同条款检索数据集

收藏
arXiv2025-01-12 更新2025-01-15 收录
法律文本处理
合同条款检索
下载链接:
http://arxiv.org/abs/2501.06582v1
下载链接
链接失效反馈
资源简介:
ACORD数据集是由苏黎世联邦理工学院等机构合作创建的首个专家注释的合同条款检索基准,专注于复杂合同条款如责任限制、赔偿、控制权变更等。该数据集包含114个查询和超过126,000个查询-条款对,每个对都经过专家评分,旨在为法律专业人士提供高质量的合同起草参考。数据集通过严格的注释过程确保其可靠性和鲁棒性,适用于评估检索模型在法律文本处理中的表现,特别是在合同起草和条款检索领域。
提供机构:
苏黎世联邦理工学院, 独立研究员, 纽约大学, 华盛顿大学, 耶鲁大学, The Atticus Project
创建时间:
2025-01-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
ACORD数据集的构建过程由经验丰富的律师、学生注释者和机器学习研究人员共同完成。首先,从公开的合同库中提取出与特定法律条款相关的条款,形成条款库。随后,针对114个独特的查询,注释者从条款库中检索出相关条款,并为每个查询-条款对分配1到5星的相关性评分。每个查询的目标是找到10个相关条款(3-5星)和20个2星条款,确保数据集的多样性和覆盖性。最终,数据集包含超过126,000个查询-条款对,每个对都经过专家严格评分,确保了数据的高质量和可靠性。
特点
ACORD数据集专注于复杂的合同条款检索,涵盖了诸如责任限制、赔偿、控制权变更等关键条款。其特点在于每个查询-条款对都经过专家评分,评分范围从1到5星,确保了数据的高质量。数据集包含114个独特的查询和超过126,000个查询-条款对,覆盖了9个主要的条款类别。此外,ACORD还提供了详细的上下文信息,确保每个条款的完整性和可理解性。这种精细的标注和广泛的覆盖使得ACORD成为评估法律信息检索模型的理想基准。
使用方法
ACORD数据集主要用于评估信息检索模型在法律合同起草任务中的表现。用户可以通过输入查询,检索出与查询最相关的合同条款,并根据模型的输出进行排序和评估。数据集的标准评估指标包括NDCG@5、NDCG@10以及3星、4星和5星的精确度@5。通过这些指标,用户可以评估模型在检索高质量条款方面的能力。此外,ACORD还支持对模型进行微调,以进一步提升其在特定法律任务中的表现。数据集以BEIR格式发布,便于研究人员直接使用和扩展。
背景与挑战
背景概述
Atticus Clause Retrieval Dataset (ACORD) 是由ETH Zurich、纽约大学、华盛顿大学、耶鲁大学以及The Atticus Project的研究人员于2025年推出的首个专注于合同起草的专家标注检索基准数据集。该数据集旨在解决法律合同起草中的关键问题,即律师如何高效地从大量合同条款中检索出最相关的先例条款。ACORD包含114个查询和超过126,000个查询-条款对,每个对都按1到5星的等级进行标注。该数据集的核心研究问题是如何通过信息检索技术帮助律师在起草合同时快速找到最相关的条款,从而提高合同起草的效率和质量。ACORD的推出为自然语言处理(NLP)领域提供了一个重要的法律信息检索基准,推动了法律文本检索技术的发展。
当前挑战
ACORD数据集面临的挑战主要体现在两个方面。首先,合同条款的复杂性使得检索任务极具挑战性。合同条款通常涉及复杂的法律概念和精确的语言表达,且条款之间可能存在交叉引用,增加了检索的难度。其次,构建ACORD数据集的过程中,专家标注的高成本和合同文本的保密性也是主要障碍。尽管ACORD通过专家标注确保了数据的高质量,但标注过程中的主观性(标注者之间的不一致率高达21%)仍然影响了数据的绝对准确性。此外,现有的法律合同数据集大多采用选择题形式,无法真实反映律师在实际工作中的需求,ACORD的推出填补了这一空白,但仍需进一步优化以应对更复杂的法律检索任务。
常用场景
经典使用场景
ACORD数据集主要用于法律合同起草中的条款检索任务。律师在起草合同时,通常不会从零开始撰写,而是依赖于查找和修改最相关的先例条款。ACORD通过提供专家标注的复杂合同条款(如责任限制、赔偿、控制权变更等),帮助律师快速找到与查询最相关的条款。该数据集包含114个查询和超过126,000个查询-条款对,每个对都按1到5星进行评分,旨在为法律信息检索任务提供一个可靠的基准。
衍生相关工作
ACORD的推出催生了一系列相关研究工作,特别是在法律信息检索和合同起草领域。基于ACORD,研究人员开发了多种检索模型,如基于BM25的检索器与GPT-4o的重新排序器组合,展示了在法律条款检索中的显著性能提升。此外,ACORD还启发了更多关于检索增强生成(RAG)技术的研究,特别是在减少大型语言模型幻觉方面的应用。未来,ACORD有望成为法律信息检索领域的标准基准,推动更多创新性研究的开展。
数据集最近研究
最新研究方向
近年来,随着自然语言处理(NLP)技术的快速发展,法律领域的合同条款检索成为了一个备受关注的研究方向。Atticus Clause Retrieval Dataset (ACORD) 作为首个由专家标注的合同条款检索基准数据集,为这一领域的研究提供了重要的数据支持。ACORD 数据集聚焦于复杂的合同条款,如责任限制、赔偿、控制权变更等,涵盖了114个查询和超过126,000个查询-条款对,每个对都按1到5星进行评分。该数据集的核心任务是帮助律师在起草合同时快速找到最相关的先例条款。当前的研究方向主要集中在如何利用双编码器检索模型与基于大语言模型(LLM)的重新排序器相结合,以提升检索的准确性和效率。尽管现有模型在条款检索任务中表现出一定的潜力,但在处理复杂的法律条款时仍存在显著改进空间。ACORD 的引入不仅为法律领域的NLP研究提供了新的基准,也为未来的合同自动化起草和条款检索系统的开发奠定了坚实的基础。
相关研究论文
  • 1
    ACORD: An Expert-Annotated Retrieval Dataset for Legal Contract Drafting苏黎世联邦理工学院, 独立研究员, 纽约大学, 华盛顿大学, 耶鲁大学, The Atticus Project · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录