five

nguha/legalbench

收藏
Hugging Face2024-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nguha/legalbench
下载链接
链接失效反馈
资源简介:
该数据集包含多个配置,如abercrombie、canada_tax_court_outcomes、citation_prediction_classification等,每个配置都有特定的特征,如answer、index、text和document_name。数据集被分类为文本分类、问答和文本生成等任务,并标记为legal、law和finance。数据集的大小因配置而异,有些配置只有几个示例,而有些则有数百个。

The dataset includes multiple configurations such as abercrombie, canada_tax_court_outcomes, citation_prediction_classification, and many more, each with specific features like answer, index, text, and document_name. The dataset is categorized under tasks like text-classification, question-answering, and text-generation, and is tagged with legal, law, and finance. The dataset size varies across configurations, with some having a few examples and others having several hundred.
提供机构:
nguha
原始信息汇总

数据集概述

本数据集包含多个子数据集,每个子数据集针对不同的法律和金融领域任务,如文本分类、问答和文本生成。以下是各子数据集的详细信息:

1. Abercrombie

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
  • 分割
    • 训练集:5个样本,307字节
    • 测试集:95个样本,6240字节
  • 下载大小:19499061字节
  • 数据集大小:6547字节

2. Canada Tax Court Outcomes

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
  • 分割
    • 训练集:6个样本,2975字节
    • 测试集:244个样本,157411字节
  • 下载大小:19499061字节
  • 数据集大小:160386字节

3. Citation Prediction Classification

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • citation: 字符串
    • index: 字符串
    • text: 字符串
  • 分割
    • 训练集:2个样本,660字节
    • 测试集:108个样本,26112字节
  • 下载大小:19499061字节
  • 数据集大小:26772字节

4. Citation Prediction Open

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • circuit: 字符串
    • index: 字符串
    • text: 字符串
  • 分割
    • 训练集:2个样本,555字节
    • 测试集:53个样本,13460字节
  • 下载大小:19499061字节
  • 数据集大小:14015字节

5. Consumer Contracts QA

  • 任务类别:问答
  • 特征
    • answer: 字符串
    • contract: 字符串
    • index: 字符串
    • question: 字符串
  • 分割
    • 训练集:4个样本,9941字节
    • 测试集:396个样本,1221320字节
  • 下载大小:19499061字节
  • 数据集大小:1231261字节

6. Contract NLI Confidentiality of Agreement

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,4070字节
    • 测试集:82个样本,43818字节
  • 下载大小:19499061字节
  • 数据集大小:47888字节

7. Contract NLI Explicit Identification

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3615字节
    • 测试集:109个样本,62133字节
  • 下载大小:19499061字节
  • 数据集大小:65748字节

8. Contract NLI Inclusion of Verbally Conveyed Information

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3817字节
    • 测试集:139个样本,81933字节
  • 下载大小:19499061字节
  • 数据集大小:85750字节

9. Contract NLI Limited Use

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,4855字节
    • 测试集:208个样本,98534字节
  • 下载大小:19499061字节
  • 数据集大小:103389字节

10. Contract NLI No Licensing

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,2591字节
    • 测试集:162个样本,78173字节
  • 下载大小:19499061字节
  • 数据集大小:80764字节

11. Contract NLI Notice on Compelled Disclosure

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3907字节
    • 测试集:142个样本,80470字节
  • 下载大小:19499061字节
  • 数据集大小:84377字节

12. Contract NLI Permissible Acquirement of Similar Information

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,2736字节
    • 测试集:178个样本,87469字节
  • 下载大小:19499061字节
  • 数据集大小:90205字节

13. Contract NLI Permissible Copy

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3480字节
    • 测试集:87个样本,39015字节
  • 下载大小:19499061字节
  • 数据集大小:42495字节

14. Contract NLI Permissible Development of Similar Information

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3921字节
    • 测试集:136个样本,62603字节
  • 下载大小:19499061字节
  • 数据集大小:66524字节

15. Contract NLI Permissible Post-agreement Possession

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,4608字节
    • 测试集:111个样本,65932字节
  • 下载大小:19499061字节
  • 数据集大小:70540字节

16. Contract NLI Return of Confidential Information

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3499字节
    • 测试集:66个样本,35672字节
  • 下载大小:19499061字节
  • 数据集大小:39171字节

17. Contract NLI Sharing with Employees

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3173字节
    • 测试集:170个样本,104240字节
  • 下载大小:19499061字节
  • 数据集大小:107413字节

18. Contract NLI Sharing with Third-parties

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,3249字节
    • 测试集:180个样本,104822字节
  • 下载大小:19499061字节
  • 数据集大小:108071字节

19. Contract NLI Survival of Obligations

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:8个样本,2272字节
    • 测试集:157个样本,75450字节
  • 下载大小:19499061字节
  • 数据集大小:77722字节

20. Contract QA

  • 任务类别:问答
  • 特征
    • answer: 字符串
    • index: 字符串
    • question: 字符串
    • text: 字符串
  • 分割
    • 训练集:8个样本,2408字节
    • 测试集:80个样本,26370字节
  • 下载大小:19499061字节
  • 数据集大小:28778字节

21. Corporate Lobbying

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • bill_summary: 字符串
    • bill_title: 字符串
    • company_description: 字符串
    • company_name: 字符串
    • index: 字符串
  • 分割
    • 训练集:10个样本,54334字节
    • 测试集:490个样本,2974813字节
  • 下载大小:19499061字节
  • 数据集大小:3029147字节

22. CUAD Affiliate License-Licensee

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,4067字节
    • 测试集:198个样本,115798字节
  • 下载大小:19499061字节
  • 数据集大小:119865字节

23. CUAD Affiliate License-Licensor

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,4247字节
    • 测试集:88个样本,64931字节
  • 下载大小:19499061字节
  • 数据集大小:69178字节

24. CUAD Anti-assignment

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,2070字节
    • 测试集:1172个样本,513026字节
  • 下载大小:19499061字节
  • 数据集大小:515096字节

25. CUAD Audit Rights

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,2555字节
    • 测试集:1216个样本,526977字节
  • 下载大小:19499061字节
  • 数据集大小:529532字节

26. CUAD Cap on Liability

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,2621字节
    • 测试集:1246个样本,587220字节
  • 下载大小:19499061字节
  • 数据集大小:589841字节

27. CUAD Change of Control

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,2231字节
    • 测试集:416个样本,203823字节
  • 下载大小:19499061字节
  • 数据集大小:206054字节

28. CUAD Competitive Restriction Exception

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,2774字节
    • 测试集:220个样本,115844字节
  • 下载大小:19499061字节
  • 数据集大小:118618字节

29. CUAD Covenant Not to Sue

  • 任务类别:文本分类
  • 特征
    • answer: 字符串
    • index: 字符串
    • text: 字符串
    • document_name: 字符串
  • 分割
    • 训练集:6个样本,25
搜集汇总
数据集介绍
main_image_url
构建方式
在法律和金融领域,文本分类、问答和文本生成等任务对于智能合约、法律文件分析和财务报告的自动化处理至关重要。nguha/legalbench数据集正是为了满足这些需求而构建的。该数据集包含了多个子数据集,每个子数据集专注于法律文件中的特定条款或条款类型。构建方式主要涉及从实际法律文件中提取文本,然后对文本进行标注,以生成答案和索引等特征。数据集的构建过程严格遵循了法律和金融行业的标准,确保了数据的准确性和可靠性。
特点
nguha/legalbench数据集的特点在于其多样性和专业性。它包含了多个子数据集,每个子数据集都专注于法律文件中的特定条款或条款类型。这些子数据集提供了丰富的文本分类、问答和文本生成任务的数据,使得研究者可以在不同的法律和金融场景下进行模型训练和评估。数据集的规模适中,既能够提供足够的数据进行模型训练,又不会过于庞大而难以处理。此外,数据集还包含了详细的文档名称、索引、文本和答案等信息,方便研究者进行数据分析和模型开发。
使用方法
使用nguha/legalbench数据集的方法相对简单。首先,用户需要根据研究任务选择合适的子数据集。然后,用户可以从数据集中提取所需的特征,如答案、索引、文本等,用于模型训练和评估。此外,用户还可以根据需要对数据进行预处理,如文本清洗、分词等,以提高模型的效果。最后,用户可以使用机器学习算法对数据进行训练,并在测试集上评估模型的效果。需要注意的是,由于数据集的专业性和复杂性,用户在进行研究和开发时需要具备一定的法律和金融知识。
背景与挑战
背景概述
法律文本分析作为自然语言处理领域的一个重要分支,近年来得到了广泛关注。法律文本的复杂性、专业性和多样性,使得法律文本分析成为一项极具挑战性的任务。'nguha/legalbench' 数据集的创建旨在为法律文本分析提供高质量的训练数据,以推动相关研究的深入发展。该数据集由多个子数据集组成,包括合同问答、合同自然语言推理、公司游说等,涵盖了法律文本分析的主要任务。每个子数据集都包含了大量经过标注的文本数据,为模型训练提供了丰富的资源。
当前挑战
尽管 'nguha/legalbench' 数据集提供了丰富的法律文本分析数据,但在实际应用中仍面临诸多挑战。首先,法律文本的复杂性使得模型的泛化能力成为一大挑战。其次,法律文本的专业性要求模型能够理解法律术语和概念,这需要模型具备较强的语义理解能力。此外,法律文本的多样性也增加了模型训练的难度,需要模型能够适应不同类型的法律文本。最后,由于法律文本的更新速度快,模型需要能够及时更新以适应最新的法律文本。
常用场景
经典使用场景
法律文本的文本分类、问答和生成是法律信息提取、合同分析和法律咨询等场景的核心任务。LegalBench数据集以其丰富的法律文本和多样的任务类型,成为了自然语言处理在法律领域应用的重要资源。通过该数据集,研究人员可以训练模型来识别法律文档中的关键信息,如合同条款、法律观点等,从而辅助法律专业人士进行高效的合同审查和案件分析。
衍生相关工作
LegalBench数据集的发布激发了法律文本处理领域的广泛研究。基于该数据集,研究人员开展了许多相关工作,包括法律文本分类、问答和生成等任务。这些研究有助于提高法律文本处理模型的性能和鲁棒性,为法律专业人士提供更高效、准确的服务。此外,LegalBench数据集还被用于开发法律信息提取和合同分析工具,进一步推动法律领域的信息化和智能化进程。
数据集最近研究
最新研究方向
在法律文本分析和合同理解领域,'nguha/legalbench'数据集的引入为研究提供了丰富的资源。该数据集涵盖了多个子集,每个子集针对法律文本的不同方面,如合同的自然语言理解(NLI)和问答(QA)。当前的前沿研究方向包括利用深度学习模型进行合同条款的分类和预测,以及通过强化学习来优化合同谈判策略。这些研究有助于提高法律专业人士的效率,减少人工审查的需求,并在合同起草和审查过程中提供智能建议。此外,该数据集在促进公平和透明的法律文本分析方面具有重要意义,尤其是在金融和商业领域,其中合同的精确理解对于风险管理至关重要。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作