Contract_Clause_SampleDataset

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/asapworks/Contract_Clause_SampleDataset

下载链接

链接失效反馈

官方服务：

资源简介：

合同条款数据集是一个高质量、丰富的法律数据集，包含了从超过10年的美国证券交易委员会（SEC）合同文件中提取的条款。该数据集旨在为法律人工智能、自然语言处理研究和基于条款的检索系统提供服务。完整的数据集包含66,813个条款，涉及200家上市公司，覆盖2010年至2024年。数据集的格式为JSONL。

创建时间：

2025-05-21

原始信息汇总

数据集概述：Contract Clause Dataset (Sample Preview)

基本信息

语言：英文 (en)
许可：Apache-2.0
多语言性：单语 (monolingual)
规模：1K<n<10K
标注方式：机器生成 (machine-generated)
任务类型：文本分类 (text-classification)
任务子类：主题分类 (topic-classification)

数据集内容

预览样本：200条法律条款 (sample_clauses_preview.jsonl)
格式：JSONL (每行一个JSON对象)
字段：
- 条款文本 (clause_text)
- 类别标签 (clause_type)
- 来源元数据 (ticker, year, accession number等)

完整数据集概览

总条款数：66,813
来源文件：SEC 10-K, 10-Q, 和 8-K (Exhibit 10)
条款类型：15+ (如termination, warranty, indemnification等)
覆盖公司：200家美国上市公司
覆盖年份：2010 – 2024
格式：JSONL
用途：法律AI、条款分类、LLM微调、RAG、法律研究

样本条款类型

termination
assignment
indemnification
confidentiality
liability
governing_law
warranty
dispute_resolution
force_majeure
payment_terms
其他

样本文件格式示例

json { "file": "AAL_2017-10-26_010177_exhibit10q32017spareparts.txt", "clause_type": "termination", "clause_text": "This Agreement may be terminated by either party with 30 days’ notice...", "line_num": 57, "ticker": "AAL", "filing_date": "2017-10-26", "accession": "0001193125-21-123456", "year": 2021 }

获取完整数据集

购买链接：https://asapworks.gumroad.com/l/wtave
支持邮箱：Asapuaiworks@gmail.com

搜集汇总

数据集介绍

构建方式

在金融法律文本挖掘领域，该数据集通过自动化流程从美国证券交易委员会（SEC）的10-K、10-Q及8-K文件附表中提取合同条款，覆盖2010至2024年间200家上市公司的公开档案。采用机器生成标注技术，系统性地识别并归类超过15种法律条款类型，最终形成包含66,813条数据的结构化集合，并以JSONL格式保存每条记录的文本内容与元数据。

特点

作为专为法律人工智能设计的语料库，本数据集展现出显著的领域专业性与时序完整性。其核心价值在于精准标注的条款分类体系，涵盖终止、赔偿、保密义务等典型法律场景，每条数据均附带公司代码、申报年份等溯源信息。这种多维度的数据组织方式既支持细粒度分析，又能满足大规模语言模型训练对数据一致性的要求。

使用方法

研究者可通过解析JSONL文件中的嵌套字段，直接获取条款文本及其分类标签，适用于法律文本分类模型的监督学习。该结构设计便于集成至检索增强生成系统，或作为预训练语言模型的领域适配数据。每条记录的元数据支持按公司、年份等维度进行样本筛选，为纵向法律条款演变研究提供便利。

背景与挑战

背景概述

合同条款样本数据集由ASAP Works机构于2024年构建，聚焦于法律人工智能领域的文本分析研究。该数据集源自美国证券交易委员会十年间公开披露的合同文件，涵盖六万余条经过标注的法律条款，旨在为智能合约解析、条款分类及法律检索系统提供结构化数据支持。通过系统化提取终止条款、保密协议、赔偿责任等十五类核心法律概念，该资源显著推动了计算法学与自然语言处理技术的交叉融合。

当前挑战

在法律智能应用层面，该数据集需解决合同条款语义模糊性、多义性表达及跨司法管辖区差异等核心难题。数据构建过程中面临三大挑战：其一，从非结构化SEC文件中精准分离复合型法律条款需要设计复杂的文本边界识别算法；其二，机器标注系统需克服法律术语上下文敏感性带来的分类一致性难题；其三，平衡商业机密保护与数据可用性要求对原始文本预处理提出特殊伦理规范。

常用场景

经典使用场景

在智能法律分析领域，该数据集通过标注15种以上合同条款类型，为自然语言处理模型提供了精准的训练素材。研究者可基于条款分类任务，构建能够自动识别终止条款、保密协议等关键法律要素的系统，显著提升合同审查的自动化水平。

衍生相关工作

基于该数据集衍生的经典研究包括结合图神经网络的合同条款关系挖掘框架，以及面向多任务学习的法律文本理解模型。这些工作通过引入注意力机制与迁移学习技术，在条款类型联合预测、合同风险量化评估等方向取得了突破性进展。

数据集最近研究