Contract_Clause_SampleDataset
收藏Hugging Face2025-05-21 更新2025-05-22 收录
下载链接:
https://huggingface.co/datasets/asapworks/Contract_Clause_SampleDataset
下载链接
链接失效反馈官方服务:
资源简介:
合同条款数据集是一个高质量、丰富的法律数据集,包含了从超过10年的美国证券交易委员会(SEC)合同文件中提取的条款。该数据集旨在为法律人工智能、自然语言处理研究和基于条款的检索系统提供服务。完整的数据集包含66,813个条款,涉及200家上市公司,覆盖2010年至2024年。数据集的格式为JSONL。
创建时间:
2025-05-21
原始信息汇总
数据集概述:Contract Clause Dataset (Sample Preview)
基本信息
- 语言:英文 (en)
- 许可:Apache-2.0
- 多语言性:单语 (monolingual)
- 规模:1K<n<10K
- 标注方式:机器生成 (machine-generated)
- 任务类型:文本分类 (text-classification)
- 任务子类:主题分类 (topic-classification)
数据集内容
- 预览样本:200条法律条款 (sample_clauses_preview.jsonl)
- 格式:JSONL (每行一个JSON对象)
- 字段:
- 条款文本 (clause_text)
- 类别标签 (clause_type)
- 来源元数据 (ticker, year, accession number等)
完整数据集概览
- 总条款数:66,813
- 来源文件:SEC 10-K, 10-Q, 和 8-K (Exhibit 10)
- 条款类型:15+ (如termination, warranty, indemnification等)
- 覆盖公司:200家美国上市公司
- 覆盖年份:2010 – 2024
- 格式:JSONL
- 用途:法律AI、条款分类、LLM微调、RAG、法律研究
样本条款类型
- termination
- assignment
- indemnification
- confidentiality
- liability
- governing_law
- warranty
- dispute_resolution
- force_majeure
- payment_terms
- 其他
样本文件格式示例
json { "file": "AAL_2017-10-26_010177_exhibit10q32017spareparts.txt", "clause_type": "termination", "clause_text": "This Agreement may be terminated by either party with 30 days’ notice...", "line_num": 57, "ticker": "AAL", "filing_date": "2017-10-26", "accession": "0001193125-21-123456", "year": 2021 }
获取完整数据集
- 购买链接:https://asapworks.gumroad.com/l/wtave
- 支持邮箱:Asapuaiworks@gmail.com
搜集汇总
数据集介绍

构建方式
在金融法律文本挖掘领域,该数据集通过自动化流程从美国证券交易委员会(SEC)的10-K、10-Q及8-K文件附表中提取合同条款,覆盖2010至2024年间200家上市公司的公开档案。采用机器生成标注技术,系统性地识别并归类超过15种法律条款类型,最终形成包含66,813条数据的结构化集合,并以JSONL格式保存每条记录的文本内容与元数据。
特点
作为专为法律人工智能设计的语料库,本数据集展现出显著的领域专业性与时序完整性。其核心价值在于精准标注的条款分类体系,涵盖终止、赔偿、保密义务等典型法律场景,每条数据均附带公司代码、申报年份等溯源信息。这种多维度的数据组织方式既支持细粒度分析,又能满足大规模语言模型训练对数据一致性的要求。
使用方法
研究者可通过解析JSONL文件中的嵌套字段,直接获取条款文本及其分类标签,适用于法律文本分类模型的监督学习。该结构设计便于集成至检索增强生成系统,或作为预训练语言模型的领域适配数据。每条记录的元数据支持按公司、年份等维度进行样本筛选,为纵向法律条款演变研究提供便利。
背景与挑战
背景概述
合同条款样本数据集由ASAP Works机构于2024年构建,聚焦于法律人工智能领域的文本分析研究。该数据集源自美国证券交易委员会十年间公开披露的合同文件,涵盖六万余条经过标注的法律条款,旨在为智能合约解析、条款分类及法律检索系统提供结构化数据支持。通过系统化提取终止条款、保密协议、赔偿责任等十五类核心法律概念,该资源显著推动了计算法学与自然语言处理技术的交叉融合。
当前挑战
在法律智能应用层面,该数据集需解决合同条款语义模糊性、多义性表达及跨司法管辖区差异等核心难题。数据构建过程中面临三大挑战:其一,从非结构化SEC文件中精准分离复合型法律条款需要设计复杂的文本边界识别算法;其二,机器标注系统需克服法律术语上下文敏感性带来的分类一致性难题;其三,平衡商业机密保护与数据可用性要求对原始文本预处理提出特殊伦理规范。
常用场景
经典使用场景
在智能法律分析领域,该数据集通过标注15种以上合同条款类型,为自然语言处理模型提供了精准的训练素材。研究者可基于条款分类任务,构建能够自动识别终止条款、保密协议等关键法律要素的系统,显著提升合同审查的自动化水平。
衍生相关工作
基于该数据集衍生的经典研究包括结合图神经网络的合同条款关系挖掘框架,以及面向多任务学习的法律文本理解模型。这些工作通过引入注意力机制与迁移学习技术,在条款类型联合预测、合同风险量化评估等方向取得了突破性进展。
数据集最近研究
最新研究方向
在法律智能领域,Contract_Clause_SampleDataset正推动条款分类与检索系统的深度发展。前沿研究聚焦于结合大语言模型进行法律文本的细粒度语义解析,通过迁移学习提升对终止条款、赔偿责任等复杂法律概念的识别精度。随着全球合规监管趋严,该数据集支撑的智能合同分析系统已成为企业风险防控的热点应用,其多维度元数据架构更为法律检索增强生成技术提供了可靠的训练基础,显著加速了司法数字化进程。
以上内容由遇见数据集搜集并总结生成



