five

nguha/legalbench|法律推理数据集|自然语言处理数据集

收藏
hugging_face2024-07-01 更新2024-03-04 收录
法律推理
自然语言处理
下载链接:
https://hf-mirror.com/datasets/nguha/legalbench
下载链接
链接失效反馈
资源简介:
该数据集包含多个配置,如abercrombie、canada_tax_court_outcomes、citation_prediction_classification等,每个配置都有特定的特征,如answer、index、text和document_name。数据集被分类为文本分类、问答和文本生成等任务,并标记为legal、law和finance。数据集的大小因配置而异,有些配置只有几个示例,而有些则有数百个。

The dataset includes multiple configurations such as abercrombie, canada_tax_court_outcomes, citation_prediction_classification, and many more, each with specific features like answer, index, text, and document_name. The dataset is categorized under tasks like text-classification, question-answering, and text-generation, and is tagged with legal, law, and finance. The dataset size varies across configurations, with some having a few examples and others having several hundred.
提供机构:
nguha
原始信息汇总

数据集概述

本数据集包含多个子数据集,每个子数据集针对不同的法律和金融领域任务,如文本分类、问答和文本生成。以下是各子数据集的详细信息:

1. Abercrombie

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
  • 分割
    • 训练集:5个样本,307字节
    • 测试集:95个样本,6240字节
  • 下载大小:19499061字节
  • 数据集大小:6547字节

2. Canada Tax Court Outcomes

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
  • 分割
    • 训练集:6个样本,2975字节
    • 测试集:244个样本,157411字节
  • 下载大小:19499061字节
  • 数据集大小:160386字节

3. Citation Prediction Classification

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • citation: 字符串
    • index: 字符串
    • text: 字符串
  • 分割
    • 训练集:2个样本,660字节
    • 测试集:108个样本,26112字节
  • 下载大小:19499061字节
  • 数据集大小:26772字节

4. Citation Prediction Open

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • circuit: 字符串
    • index: 字符串
    • text: 字符串
  • 分割
    • 训练集:2个样本,555字节
    • 测试集:53个样本,13460字节
  • 下载大小:19499061字节
  • 数据集大小:14015字节

5. Consumer Contracts QA

  • 任务类别:问答
  • 特征
    • answer: 字符串
    • contract: 字符串
    • index: 字符串
    • question: 字符串
  • 分割
    • 训练集:4个样本,9941字节
    • 测试集:396个样本,1221320字节
  • 下载大小:19499061字节
  • 数据集大小:1231261字节

6. Contract NLI Confidentiality of Agreement

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,4070字节
    • 测试集:82个样本,43818字节
  • 下载大小:19499061字节
  • 数据集大小:47888字节

7. Contract NLI Explicit Identification

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3615字节
    • 测试集:109个样本,62133字节
  • 下载大小:19499061字节
  • 数据集大小:65748字节

8. Contract NLI Inclusion of Verbally Conveyed Information

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3817字节
    • 测试集:139个样本,81933字节
  • 下载大小:19499061字节
  • 数据集大小:85750字节

9. Contract NLI Limited Use

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,4855字节
    • 测试集:208个样本,98534字节
  • 下载大小:19499061字节
  • 数据集大小:103389字节

10. Contract NLI No Licensing

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,2591字节
    • 测试集:162个样本,78173字节
  • 下载大小:19499061字节
  • 数据集大小:80764字节

11. Contract NLI Notice on Compelled Disclosure

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3907字节
    • 测试集:142个样本,80470字节
  • 下载大小:19499061字节
  • 数据集大小:84377字节

12. Contract NLI Permissible Acquirement of Similar Information

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,2736字节
    • 测试集:178个样本,87469字节
  • 下载大小:19499061字节
  • 数据集大小:90205字节

13. Contract NLI Permissible Copy

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3480字节
    • 测试集:87个样本,39015字节
  • 下载大小:19499061字节
  • 数据集大小:42495字节

14. Contract NLI Permissible Development of Similar Information

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3921字节
    • 测试集:136个样本,62603字节
  • 下载大小:19499061字节
  • 数据集大小:66524字节

15. Contract NLI Permissible Post-agreement Possession

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,4608字节
    • 测试集:111个样本,65932字节
  • 下载大小:19499061字节
  • 数据集大小:70540字节

16. Contract NLI Return of Confidential Information

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3499字节
    • 测试集:66个样本,35672字节
  • 下载大小:19499061字节
  • 数据集大小:39171字节

17. Contract NLI Sharing with Employees

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3173字节
    • 测试集:170个样本,104240字节
  • 下载大小:19499061字节
  • 数据集大小:107413字节

18. Contract NLI Sharing with Third-parties

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3249字节
    • 测试集:180个样本,104822字节
  • 下载大小:19499061字节
  • 数据集大小:108071字节

19. Contract NLI Survival of Obligations

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,2272字节
    • 测试集:157个样本,75450字节
  • 下载大小:19499061字节
  • 数据集大小:77722字节

20. Contract QA

  • 任务类别:问答
  • 特征
    • answer: 字符串
    • index: 字符串
    • question: 字符串
    • text: 字符串
  • 分割
    • 训练集:8个样本,2408字节
    • 测试集:80个样本,26370字节
  • 下载大小:19499061字节
  • 数据集大小:28778字节

21. Corporate Lobbying

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • bill_summary: 字符串
    • bill_title: 字符串
    • company_description: 字符串
    • company_name: 字符串
    • index: 字符串
  • 分割
    • 训练集:10个样本,54334字节
    • 测试集:490个样本,2974813字节
  • 下载大小:19499061字节
  • 数据集大小:3029147字节

22. CUAD Affiliate License-Licensee

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,4067字节
    • 测试集:198个样本,115798字节
  • 下载大小:19499061字节
  • 数据集大小:119865字节

23. CUAD Affiliate License-Licensor

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,4247字节
    • 测试集:88个样本,64931字节
  • 下载大小:19499061字节
  • 数据集大小:69178字节

24. CUAD Anti-assignment

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,2070字节
    • 测试集:1172个样本,513026字节
  • 下载大小:19499061字节
  • 数据集大小:515096字节

25. CUAD Audit Rights

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,2555字节
    • 测试集:1216个样本,526977字节
  • 下载大小:19499061字节
  • 数据集大小:529532字节

26. CUAD Cap on Liability

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,2621字节
    • 测试集:1246个样本,587220字节
  • 下载大小:19499061字节
  • 数据集大小:589841字节

27. CUAD Change of Control

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,2231字节
    • 测试集:416个样本,203823字节
  • 下载大小:19499061字节
  • 数据集大小:206054字节

28. CUAD Competitive Restriction Exception

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,2774字节
    • 测试集:220个样本,115844字节
  • 下载大小:19499061字节
  • 数据集大小:118618字节

29. CUAD Covenant Not to Sue

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,25
AI搜集汇总
数据集介绍
main_image_url
构建方式
在法律和金融领域,文本分类、问答和文本生成等任务对于智能合约、法律文件分析和财务报告的自动化处理至关重要。nguha/legalbench数据集正是为了满足这些需求而构建的。该数据集包含了多个子数据集,每个子数据集专注于法律文件中的特定条款或条款类型。构建方式主要涉及从实际法律文件中提取文本,然后对文本进行标注,以生成答案和索引等特征。数据集的构建过程严格遵循了法律和金融行业的标准,确保了数据的准确性和可靠性。
特点
nguha/legalbench数据集的特点在于其多样性和专业性。它包含了多个子数据集,每个子数据集都专注于法律文件中的特定条款或条款类型。这些子数据集提供了丰富的文本分类、问答和文本生成任务的数据,使得研究者可以在不同的法律和金融场景下进行模型训练和评估。数据集的规模适中,既能够提供足够的数据进行模型训练,又不会过于庞大而难以处理。此外,数据集还包含了详细的文档名称、索引、文本和答案等信息,方便研究者进行数据分析和模型开发。
使用方法
使用nguha/legalbench数据集的方法相对简单。首先,用户需要根据研究任务选择合适的子数据集。然后,用户可以从数据集中提取所需的特征,如答案、索引、文本等,用于模型训练和评估。此外,用户还可以根据需要对数据进行预处理,如文本清洗、分词等,以提高模型的效果。最后,用户可以使用机器学习算法对数据进行训练,并在测试集上评估模型的效果。需要注意的是,由于数据集的专业性和复杂性,用户在进行研究和开发时需要具备一定的法律和金融知识。
背景与挑战
背景概述
法律文本分析作为自然语言处理领域的一个重要分支,近年来得到了广泛关注。法律文本的复杂性、专业性和多样性,使得法律文本分析成为一项极具挑战性的任务。'nguha/legalbench' 数据集的创建旨在为法律文本分析提供高质量的训练数据,以推动相关研究的深入发展。该数据集由多个子数据集组成,包括合同问答、合同自然语言推理、公司游说等,涵盖了法律文本分析的主要任务。每个子数据集都包含了大量经过标注的文本数据,为模型训练提供了丰富的资源。
当前挑战
尽管 'nguha/legalbench' 数据集提供了丰富的法律文本分析数据,但在实际应用中仍面临诸多挑战。首先,法律文本的复杂性使得模型的泛化能力成为一大挑战。其次,法律文本的专业性要求模型能够理解法律术语和概念,这需要模型具备较强的语义理解能力。此外,法律文本的多样性也增加了模型训练的难度,需要模型能够适应不同类型的法律文本。最后,由于法律文本的更新速度快,模型需要能够及时更新以适应最新的法律文本。
常用场景
经典使用场景
法律文本的文本分类、问答和生成是法律信息提取、合同分析和法律咨询等场景的核心任务。LegalBench数据集以其丰富的法律文本和多样的任务类型,成为了自然语言处理在法律领域应用的重要资源。通过该数据集,研究人员可以训练模型来识别法律文档中的关键信息,如合同条款、法律观点等,从而辅助法律专业人士进行高效的合同审查和案件分析。
衍生相关工作
LegalBench数据集的发布激发了法律文本处理领域的广泛研究。基于该数据集,研究人员开展了许多相关工作,包括法律文本分类、问答和生成等任务。这些研究有助于提高法律文本处理模型的性能和鲁棒性,为法律专业人士提供更高效、准确的服务。此外,LegalBench数据集还被用于开发法律信息提取和合同分析工具,进一步推动法律领域的信息化和智能化进程。
数据集最近研究
最新研究方向
在法律文本分析和合同理解领域,'nguha/legalbench'数据集的引入为研究提供了丰富的资源。该数据集涵盖了多个子集,每个子集针对法律文本的不同方面,如合同的自然语言理解(NLI)和问答(QA)。当前的前沿研究方向包括利用深度学习模型进行合同条款的分类和预测,以及通过强化学习来优化合同谈判策略。这些研究有助于提高法律专业人士的效率,减少人工审查的需求,并在合同起草和审查过程中提供智能建议。此外,该数据集在促进公平和透明的法律文本分析方面具有重要意义,尤其是在金融和商业领域,其中合同的精确理解对于风险管理至关重要。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录