theatticusproject/cuad-qa
收藏Hugging Face2024-05-23 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/theatticusproject/cuad-qa
下载链接
链接失效反馈官方服务:
资源简介:
CUAD(Contract Understanding Atticus Dataset)是一个专门用于法律合同审查的自然语言处理数据集,包含510份商业法律合同中的超过13,000个标签,涵盖了41个重要条款类别。该数据集由专家生成,主要用于支持法律合同审查的NLP研究和开发。数据集的创建过程包括法律学生的培训、手动标签、关键词搜索、类别报告审查、律师审查等多个步骤,以确保注释的准确性。数据集仅包含英文样本,且已分为训练集和测试集。
CUAD (Contract Understanding Atticus Dataset) is a natural language processing (NLP) dataset dedicated to legal contract review. It contains over 13,000 annotated labels across 510 commercial legal contracts, covering 41 critical clause categories. This dataset was developed by domain experts, and is primarily designed to support NLP research and development for legal contract review. The dataset construction process includes multiple steps to ensure annotation accuracy, such as training law students, manual labeling, keyword search, category report review, and lawyer review. The dataset exclusively contains English-language samples, and has been split into training and test sets.
提供机构:
theatticusproject
原始信息汇总
数据集概述
名称: CUAD (Contract Understanding Atticus Dataset)
语言: 英语
许可证: CC-BY-4.0
多语言性: 单语种
大小: 10K<n<100K
源数据集: 原始数据
任务类别: 问答
任务ID:
- closed-domain-qa
- extractive-qa
训练与评估索引:
- 配置: default
- 任务: question-answering
- 任务ID: extractive_question_answering
- 分割:
- 训练分割: train
- 评估分割: test
- 列映射:
- 问题: question
- 上下文: context
- 答案:
- 文本: text
- 答案开始位置: answer_start
- 指标:
- 类型: cuad
- 名称: CUAD
数据集结构
特征:
- id: 字符串类型
- title: 字符串类型
- context: 字符串类型
- question: 字符串类型
- answers: 序列类型,包含:
- text: 字符串类型
- answer_start: int32类型
分割:
- 训练集: 22450个样本
- 测试集: 4182个样本
数据集创建
源数据:
- 包含510份商业合同,来自25种不同类型的合同。
注释:
- 由法律学生和律师进行多步骤注释过程,确保准确性。
个人和敏感信息:
- 部分合同条款因保护机密性而被编辑。
数据集使用考虑
社会影响: 未提供详细信息
偏见讨论: 未提供详细信息
其他已知限制: 未提供详细信息
搜集汇总
数据集介绍

构建方式
Contract Understanding Atticus Dataset (CUAD) 是由The Atticus Project团队精心构建的,旨在支持法律合同审查领域的自然语言处理研究。该数据集包含了超过500份商业法律合同,并由数十名法律学生、律师和机器学习研究人员经过一年的努力进行手动标注,形成了超过13,000个专家注释,涵盖41个重要的合同条款类别。这些注释过程包括法律学生的培训、关键词搜索、类别报告审查、律师复核等多个步骤,确保了数据的高质量和准确性。
特点
CUAD数据集的显著特点在于其高度专业化和领域特定的标注,涵盖了法律合同审查中的41个关键条款类别。每个类别都需要模型识别合同中与之相关的部分,这使得任务具有挑战性。此外,数据集的构建过程中采用了多层次的标注和审查机制,确保了标注的一致性和准确性。数据集的规模适中,包含22,450个训练样本和4,182个测试样本,适合用于闭域问答和抽取式问答任务。
使用方法
CUAD数据集主要用于支持法律合同审查领域的自然语言处理任务,特别是闭域问答和抽取式问答。用户可以通过HuggingFace的datasets库加载该数据集,并使用提供的字段如'question'、'context'和'answers'进行模型训练和评估。数据集的结构清晰,包含'id'、'title'、'context'、'question'和'answers'等字段,便于模型直接处理。通过使用CUAD,研究者和开发者可以训练和评估模型在法律合同审查任务中的表现,推动该领域的技术进步。
背景与挑战
背景概述
Contract Understanding Atticus Dataset (CUAD) v1 是由 The Atticus Project 创建的一个专门用于法律合同审查的自然语言处理数据集。该数据集于2021年发布,包含了超过500份商业法律合同中的13,000多个标签,涵盖了41种律师在审查合同时关注的条款类别。CUAD 的创建旨在通过提供高质量的数据集和预训练模型,推动法律合同审查的自动化,从而减少人工审查的时间和成本。该数据集的创建得到了法律专家、法学生和机器学习研究人员的共同努力,通过一年的努力,最终形成了这一大规模、高质量的数据集,对法律科技领域具有重要影响。
当前挑战
CUAD 数据集面临的挑战主要集中在法律合同审查的复杂性和数据标注的精确性上。首先,法律合同文本通常冗长且结构复杂,涉及多个条款和子条款,模型需要从中提取出与特定标签相关的关键信息,这使得任务类似于在干草堆中寻找针。其次,数据标注过程涉及多步骤的审查和校对,包括法学生的初步标注、关键词搜索、律师的最终审查等,确保标注的准确性和一致性。此外,合同文本中的敏感信息和格式问题也给数据处理带来了额外的挑战。
常用场景
经典使用场景
CUAD数据集的经典使用场景主要集中在法律合同审查领域,特别是在识别和提取合同中关键条款的自动化任务中。该数据集通过提供超过13,000个专家标注的样本,涵盖了510份商业法律合同中的41个重要条款类别,为开发和评估合同审查的自然语言处理模型提供了丰富的资源。
解决学术问题
CUAD数据集解决了法律合同审查领域中缺乏大规模公开数据集的问题,填补了这一领域的研究空白。通过提供高质量的标注数据,CUAD促进了自然语言处理技术在法律领域的应用,推动了模型在特定领域任务中的泛化能力研究,具有重要的学术价值和实际意义。
衍生相关工作
CUAD数据集的发布催生了一系列相关研究工作,特别是在法律文本理解和合同条款提取方面。许多研究者利用CUAD数据集训练和评估模型,探索如何更有效地从合同文本中提取关键信息。此外,CUAD还激发了关于如何在特定领域应用自然语言处理技术的深入讨论,推动了法律科技领域的创新和发展。
以上内容由遇见数据集搜集并总结生成



