nguha/legalbench

Hugging Face2024-07-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nguha/legalbench

下载链接

链接失效反馈

资源简介：

该数据集包含多个配置，如abercrombie、canada_tax_court_outcomes、citation_prediction_classification等，每个配置都有特定的特征，如answer、index、text和document_name。数据集被分类为文本分类、问答和文本生成等任务，并标记为legal、law和finance。数据集的大小因配置而异，有些配置只有几个示例，而有些则有数百个。

The dataset includes multiple configurations such as abercrombie, canada_tax_court_outcomes, citation_prediction_classification, and many more, each with specific features like answer, index, text, and document_name. The dataset is categorized under tasks like text-classification, question-answering, and text-generation, and is tagged with legal, law, and finance. The dataset size varies across configurations, with some having a few examples and others having several hundred.

提供机构：

nguha

原始信息汇总

数据集概述

本数据集包含多个子数据集，每个子数据集针对不同的法律和金融领域任务，如文本分类、问答和文本生成。以下是各子数据集的详细信息：

1. Abercrombie

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
分割：
- 训练集：5个样本，307字节
- 测试集：95个样本，6240字节
下载大小：19499061字节
数据集大小：6547字节

2. Canada Tax Court Outcomes

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
分割：
- 训练集：6个样本，2975字节
- 测试集：244个样本，157411字节
下载大小：19499061字节
数据集大小：160386字节

3. Citation Prediction Classification

任务类别：文本分类
特征：
- answer: 字符串
- citation: 字符串
- index: 字符串
- text: 字符串
分割：
- 训练集：2个样本，660字节
- 测试集：108个样本，26112字节
下载大小：19499061字节
数据集大小：26772字节

4. Citation Prediction Open

任务类别：文本分类
特征：
- answer: 字符串
- circuit: 字符串
- index: 字符串
- text: 字符串
分割：
- 训练集：2个样本，555字节
- 测试集：53个样本，13460字节
下载大小：19499061字节
数据集大小：14015字节

5. Consumer Contracts QA

任务类别：问答
特征：
- answer: 字符串
- contract: 字符串
- index: 字符串
- question: 字符串
分割：
- 训练集：4个样本，9941字节
- 测试集：396个样本，1221320字节
下载大小：19499061字节
数据集大小：1231261字节

6. Contract NLI Confidentiality of Agreement

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，4070字节
- 测试集：82个样本，43818字节
下载大小：19499061字节
数据集大小：47888字节

7. Contract NLI Explicit Identification

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，3615字节
- 测试集：109个样本，62133字节
下载大小：19499061字节
数据集大小：65748字节

8. Contract NLI Inclusion of Verbally Conveyed Information

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，3817字节
- 测试集：139个样本，81933字节
下载大小：19499061字节
数据集大小：85750字节

9. Contract NLI Limited Use

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，4855字节
- 测试集：208个样本，98534字节
下载大小：19499061字节
数据集大小：103389字节

10. Contract NLI No Licensing

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，2591字节
- 测试集：162个样本，78173字节
下载大小：19499061字节
数据集大小：80764字节

11. Contract NLI Notice on Compelled Disclosure

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，3907字节
- 测试集：142个样本，80470字节
下载大小：19499061字节
数据集大小：84377字节

12. Contract NLI Permissible Acquirement of Similar Information

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，2736字节
- 测试集：178个样本，87469字节
下载大小：19499061字节
数据集大小：90205字节

13. Contract NLI Permissible Copy

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，3480字节
- 测试集：87个样本，39015字节
下载大小：19499061字节
数据集大小：42495字节

14. Contract NLI Permissible Development of Similar Information

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，3921字节
- 测试集：136个样本，62603字节
下载大小：19499061字节
数据集大小：66524字节

15. Contract NLI Permissible Post-agreement Possession

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，4608字节
- 测试集：111个样本，65932字节
下载大小：19499061字节
数据集大小：70540字节

16. Contract NLI Return of Confidential Information

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，3499字节
- 测试集：66个样本，35672字节
下载大小：19499061字节
数据集大小：39171字节

17. Contract NLI Sharing with Employees

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，3173字节
- 测试集：170个样本，104240字节
下载大小：19499061字节
数据集大小：107413字节

18. Contract NLI Sharing with Third-parties

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，3249字节
- 测试集：180个样本，104822字节
下载大小：19499061字节
数据集大小：108071字节

19. Contract NLI Survival of Obligations

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：8个样本，2272字节
- 测试集：157个样本，75450字节
下载大小：19499061字节
数据集大小：77722字节

20. Contract QA

任务类别：问答
特征：
- answer: 字符串
- index: 字符串
- question: 字符串
- text: 字符串
分割：
- 训练集：8个样本，2408字节
- 测试集：80个样本，26370字节
下载大小：19499061字节
数据集大小：28778字节

21. Corporate Lobbying

任务类别：文本分类
特征：
- answer: 字符串
- bill_summary: 字符串
- bill_title: 字符串
- company_description: 字符串
- company_name: 字符串
- index: 字符串
分割：
- 训练集：10个样本，54334字节
- 测试集：490个样本，2974813字节
下载大小：19499061字节
数据集大小：3029147字节

22. CUAD Affiliate License-Licensee

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：6个样本，4067字节
- 测试集：198个样本，115798字节
下载大小：19499061字节
数据集大小：119865字节

23. CUAD Affiliate License-Licensor

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：6个样本，4247字节
- 测试集：88个样本，64931字节
下载大小：19499061字节
数据集大小：69178字节

24. CUAD Anti-assignment

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：6个样本，2070字节
- 测试集：1172个样本，513026字节
下载大小：19499061字节
数据集大小：515096字节

25. CUAD Audit Rights

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：6个样本，2555字节
- 测试集：1216个样本，526977字节
下载大小：19499061字节
数据集大小：529532字节

26. CUAD Cap on Liability

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：6个样本，2621字节
- 测试集：1246个样本，587220字节
下载大小：19499061字节
数据集大小：589841字节

27. CUAD Change of Control

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：6个样本，2231字节
- 测试集：416个样本，203823字节
下载大小：19499061字节
数据集大小：206054字节

28. CUAD Competitive Restriction Exception

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：6个样本，2774字节
- 测试集：220个样本，115844字节
下载大小：19499061字节
数据集大小：118618字节

29. CUAD Covenant Not to Sue

任务类别：文本分类
特征：
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
分割：
- 训练集：6个样本，25

搜集汇总

数据集介绍

构建方式

在法律和金融领域，文本分类、问答和文本生成等任务对于智能合约、法律文件分析和财务报告的自动化处理至关重要。nguha/legalbench数据集正是为了满足这些需求而构建的。该数据集包含了多个子数据集，每个子数据集专注于法律文件中的特定条款或条款类型。构建方式主要涉及从实际法律文件中提取文本，然后对文本进行标注，以生成答案和索引等特征。数据集的构建过程严格遵循了法律和金融行业的标准，确保了数据的准确性和可靠性。

特点

nguha/legalbench数据集的特点在于其多样性和专业性。它包含了多个子数据集，每个子数据集都专注于法律文件中的特定条款或条款类型。这些子数据集提供了丰富的文本分类、问答和文本生成任务的数据，使得研究者可以在不同的法律和金融场景下进行模型训练和评估。数据集的规模适中，既能够提供足够的数据进行模型训练，又不会过于庞大而难以处理。此外，数据集还包含了详细的文档名称、索引、文本和答案等信息，方便研究者进行数据分析和模型开发。

使用方法

使用nguha/legalbench数据集的方法相对简单。首先，用户需要根据研究任务选择合适的子数据集。然后，用户可以从数据集中提取所需的特征，如答案、索引、文本等，用于模型训练和评估。此外，用户还可以根据需要对数据进行预处理，如文本清洗、分词等，以提高模型的效果。最后，用户可以使用机器学习算法对数据进行训练，并在测试集上评估模型的效果。需要注意的是，由于数据集的专业性和复杂性，用户在进行研究和开发时需要具备一定的法律和金融知识。

背景与挑战

背景概述

法律文本分析作为自然语言处理领域的一个重要分支，近年来得到了广泛关注。法律文本的复杂性、专业性和多样性，使得法律文本分析成为一项极具挑战性的任务。'nguha/legalbench' 数据集的创建旨在为法律文本分析提供高质量的训练数据，以推动相关研究的深入发展。该数据集由多个子数据集组成，包括合同问答、合同自然语言推理、公司游说等，涵盖了法律文本分析的主要任务。每个子数据集都包含了大量经过标注的文本数据，为模型训练提供了丰富的资源。

当前挑战

尽管 'nguha/legalbench' 数据集提供了丰富的法律文本分析数据，但在实际应用中仍面临诸多挑战。首先，法律文本的复杂性使得模型的泛化能力成为一大挑战。其次，法律文本的专业性要求模型能够理解法律术语和概念，这需要模型具备较强的语义理解能力。此外，法律文本的多样性也增加了模型训练的难度，需要模型能够适应不同类型的法律文本。最后，由于法律文本的更新速度快，模型需要能够及时更新以适应最新的法律文本。

常用场景

经典使用场景

法律文本的文本分类、问答和生成是法律信息提取、合同分析和法律咨询等场景的核心任务。LegalBench数据集以其丰富的法律文本和多样的任务类型，成为了自然语言处理在法律领域应用的重要资源。通过该数据集，研究人员可以训练模型来识别法律文档中的关键信息，如合同条款、法律观点等，从而辅助法律专业人士进行高效的合同审查和案件分析。

衍生相关工作

LegalBench数据集的发布激发了法律文本处理领域的广泛研究。基于该数据集，研究人员开展了许多相关工作，包括法律文本分类、问答和生成等任务。这些研究有助于提高法律文本处理模型的性能和鲁棒性，为法律专业人士提供更高效、准确的服务。此外，LegalBench数据集还被用于开发法律信息提取和合同分析工具，进一步推动法律领域的信息化和智能化进程。

数据集最近研究