five

theatticusproject/cuad-qa|法律合同审查数据集|自然语言处理数据集

收藏
hugging_face2024-05-23 更新2024-05-25 收录
法律合同审查
自然语言处理
下载链接:
https://hf-mirror.com/datasets/theatticusproject/cuad-qa
下载链接
链接失效反馈
资源简介:
CUAD(Contract Understanding Atticus Dataset)是一个专门用于法律合同审查的自然语言处理数据集,包含510份商业法律合同中的超过13,000个标签,涵盖了41个重要条款类别。该数据集由专家生成,主要用于支持法律合同审查的NLP研究和开发。数据集的创建过程包括法律学生的培训、手动标签、关键词搜索、类别报告审查、律师审查等多个步骤,以确保注释的准确性。数据集仅包含英文样本,且已分为训练集和测试集。
提供机构:
theatticusproject
原始信息汇总

数据集概述

名称: CUAD (Contract Understanding Atticus Dataset)

语言: 英语

许可证: CC-BY-4.0

多语言性: 单语种

大小: 10K<n<100K

源数据集: 原始数据

任务类别: 问答

任务ID:

  • closed-domain-qa
  • extractive-qa

训练与评估索引:

  • 配置: default
  • 任务: question-answering
  • 任务ID: extractive_question_answering
  • 分割:
    • 训练分割: train
    • 评估分割: test
  • 列映射:
    • 问题: question
    • 上下文: context
    • 答案:
      • 文本: text
      • 答案开始位置: answer_start
  • 指标:
    • 类型: cuad
    • 名称: CUAD

数据集结构

特征:

  • id: 字符串类型
  • title: 字符串类型
  • context: 字符串类型
  • question: 字符串类型
  • answers: 序列类型,包含:
    • text: 字符串类型
    • answer_start: int32类型

分割:

  • 训练集: 22450个样本
  • 测试集: 4182个样本

数据集创建

源数据:

  • 包含510份商业合同,来自25种不同类型的合同。

注释:

  • 由法律学生和律师进行多步骤注释过程,确保准确性。

个人和敏感信息:

  • 部分合同条款因保护机密性而被编辑。

数据集使用考虑

社会影响: 未提供详细信息

偏见讨论: 未提供详细信息

其他已知限制: 未提供详细信息

AI搜集汇总
数据集介绍
main_image_url
构建方式
Contract Understanding Atticus Dataset (CUAD) 是由The Atticus Project团队精心构建的,旨在支持法律合同审查领域的自然语言处理研究。该数据集包含了超过500份商业法律合同,并由数十名法律学生、律师和机器学习研究人员经过一年的努力进行手动标注,形成了超过13,000个专家注释,涵盖41个重要的合同条款类别。这些注释过程包括法律学生的培训、关键词搜索、类别报告审查、律师复核等多个步骤,确保了数据的高质量和准确性。
特点
CUAD数据集的显著特点在于其高度专业化和领域特定的标注,涵盖了法律合同审查中的41个关键条款类别。每个类别都需要模型识别合同中与之相关的部分,这使得任务具有挑战性。此外,数据集的构建过程中采用了多层次的标注和审查机制,确保了标注的一致性和准确性。数据集的规模适中,包含22,450个训练样本和4,182个测试样本,适合用于闭域问答和抽取式问答任务。
使用方法
CUAD数据集主要用于支持法律合同审查领域的自然语言处理任务,特别是闭域问答和抽取式问答。用户可以通过HuggingFace的datasets库加载该数据集,并使用提供的字段如'question'、'context'和'answers'进行模型训练和评估。数据集的结构清晰,包含'id'、'title'、'context'、'question'和'answers'等字段,便于模型直接处理。通过使用CUAD,研究者和开发者可以训练和评估模型在法律合同审查任务中的表现,推动该领域的技术进步。
背景与挑战
背景概述
Contract Understanding Atticus Dataset (CUAD) v1 是由 The Atticus Project 创建的一个专门用于法律合同审查的自然语言处理数据集。该数据集于2021年发布,包含了超过500份商业法律合同中的13,000多个标签,涵盖了41种律师在审查合同时关注的条款类别。CUAD 的创建旨在通过提供高质量的数据集和预训练模型,推动法律合同审查的自动化,从而减少人工审查的时间和成本。该数据集的创建得到了法律专家、法学生和机器学习研究人员的共同努力,通过一年的努力,最终形成了这一大规模、高质量的数据集,对法律科技领域具有重要影响。
当前挑战
CUAD 数据集面临的挑战主要集中在法律合同审查的复杂性和数据标注的精确性上。首先,法律合同文本通常冗长且结构复杂,涉及多个条款和子条款,模型需要从中提取出与特定标签相关的关键信息,这使得任务类似于在干草堆中寻找针。其次,数据标注过程涉及多步骤的审查和校对,包括法学生的初步标注、关键词搜索、律师的最终审查等,确保标注的准确性和一致性。此外,合同文本中的敏感信息和格式问题也给数据处理带来了额外的挑战。
常用场景
经典使用场景
CUAD数据集的经典使用场景主要集中在法律合同审查领域,特别是在识别和提取合同中关键条款的自动化任务中。该数据集通过提供超过13,000个专家标注的样本,涵盖了510份商业法律合同中的41个重要条款类别,为开发和评估合同审查的自然语言处理模型提供了丰富的资源。
解决学术问题
CUAD数据集解决了法律合同审查领域中缺乏大规模公开数据集的问题,填补了这一领域的研究空白。通过提供高质量的标注数据,CUAD促进了自然语言处理技术在法律领域的应用,推动了模型在特定领域任务中的泛化能力研究,具有重要的学术价值和实际意义。
衍生相关工作
CUAD数据集的发布催生了一系列相关研究工作,特别是在法律文本理解和合同条款提取方面。许多研究者利用CUAD数据集训练和评估模型,探索如何更有效地从合同文本中提取关键信息。此外,CUAD还激发了关于如何在特定领域应用自然语言处理技术的深入讨论,推动了法律科技领域的创新和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

熟肉制品在全国需求价格弹性分析数据

为更好了解各市对熟肉制品的市场需求情况,本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率,那么熟肉制品需求富有弹性,说明顾客对于熟肉制品价格变化的敏感程度大,弹性越大,需求对价格变化越敏感,本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性,本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集:采集相关熟肉制品在某一时间段全国的的需求数据和价格数据,按照市级进行整理归纳,得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则:对采集得到的数据按照如下公式进行计算:需求弹性系数Ed=-(△Q/Q)÷(△P/P),得到需求弹性系数。式中:Q表示产品的需求量,单位为份;P表示产品的价格,单位为元;△Q表示需求量同比变动值,单位为份;△P表示价格同比变动值,单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析:根据|Ed|的数值可分析该熟肉制品的需求价格弹性。(1)|Ed|=1(单位需求价格弹性),说明需求量变动幅度与价格变动幅度相同;(2)1<|Ed|(需求富有弹性),说明需求量变动幅度大于价格变动幅度;(3)|Ed|<1(需求缺乏弹性),说明需求量变动幅度小于价格变动幅度。

浙江省数据知识产权登记平台 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录