five

Material Contracts Corpus (MCC)

收藏
arXiv2025-04-01 更新2025-04-08 收录
下载链接:
https://mcc.law.stanford.edu/
下载链接
链接失效反馈
官方服务:
资源简介:
Material Contracts Corpus (MCC)是由斯坦福大学商学院和斯坦福法学院创建的一个公开可用的数据集,包含超过一百万份由公开公司向美国证券交易委员会(SEC)提交的合同。这些合同是从2000年至2023年间的,数据集通过机器学习和自然语言处理技术进行了分类,支持对合同设计和法律语言的研究,也便于开发基于AI的法律工具。数据集覆盖了各种类型的合同,如雇佣合同、证券合同等,为研究提供了丰富的资源。

The Material Contracts Corpus (MCC) is a publicly available dataset developed by the Stanford Graduate School of Business and Stanford Law School. It contains over one million contracts filed by public companies with the U.S. Securities and Exchange Commission (SEC), spanning the period from 2000 to 2023. The dataset has been categorized using machine learning and natural language processing techniques, enabling research on contract design and legal language and facilitating the development of AI-powered legal tools. Covering various types of contracts such as employment contracts and securities contracts, it provides a rich resource for relevant research.
提供机构:
斯坦福大学商学院和斯坦福法学院
创建时间:
2025-04-01
搜集汇总
数据集介绍
main_image_url
构建方式
Material Contracts Corpus (MCC)数据集的构建基于美国证券交易委员会(SEC)公开披露的上市公司合同文件,时间跨度为2000年至2023年。通过自动化流程从EDGAR数据库中提取了3,529,347份文件,并筛选出1,254,161份合同文件,最终形成1,038,766个唯一合同URL。合同分类采用微调的LLaMA-2模型,通过人工标注的1,993份合同样本进行训练,实现了95%的分类准确率。合同方识别则基于RoBERTa架构的命名实体识别模型,辅以模糊字符串匹配技术解决法律实体名称变体问题。
特点
该数据集的核心价值体现在其规模性与结构化深度。作为目前最大的公开合同语料库,MCC不仅涵盖百万级合同样本,还通过机器学习技术实现了多维标注:包括8大合同类型分类(如证券协议、雇佣协议等)、4种合同修订状态标注(修正/重述/加入/终止),以及精确到法律实体的缔约方识别。特别值得注意的是,数据集捕捉了合同语言随时间的演变趋势,如合同长度与阅读难度的显著增长,为研究法律语言演化提供了量化依据。数据集还关联了行业分类(SIC编码)和公司注册地等元数据,支持多维度的交叉分析。
使用方法
研究者可通过斯坦福大学法学院提供的在线平台(https://mcc.law.stanford.edu)进行合同检索与批量下载。使用场景主要包括三类:其一,通过协议类型、行业、时间等维度筛选特定合同子集,用于法律文本分析或机器学习模型训练;其二,追踪特定法律实体(如摩根大通)的缔约行为,支持公司治理研究;其三,利用时间序列数据研究合同条款演变规律。数据集配套的元数据(如Flesch-Kincaid可读性指标)可直接用于量化分析,而原始文本适合作为法律自然语言处理任务的基准数据。
背景与挑战
背景概述
Material Contracts Corpus (MCC)是由斯坦福大学商学院与法学院的Peter Adelson和Julian Nyarko于2025年推出的公开数据集,收录了2000至2023年间美国上市公司向证券交易委员会(SEC)提交的1,038,766份重大合同。作为首个系统化整理SEC备案合同的大规模语料库,MCC通过机器学习技术对合同类型进行分类(如雇佣协议、证券协议等),并关联合同相关方实体,填补了法律实证研究与AI法律工具开发领域的数据空白。该数据集不仅揭示了合同语言复杂度随时间递增的趋势,还发现上市公司备案合同中雇佣协议占比高达38.8%,为研究契约设计演变规律提供了重要基准。
当前挑战
构建MCC面临双重挑战:在领域问题层面,需解决法律文本特有的语义模糊性(如'重大合同'的法定定义)、合同条款动态更新(修正案与重述文件的关联性)以及跨实体名称归一化(如'JP Morgan Chase'的12种变体表述);在技术实现层面,处理了HTM/PDF/TXT等异构文件格式解析、基于小样本(1,993份手工标注)的LLaMA-2模型微调精度提升('其他'类别F1仅为0.79)、以及从3,529,347份EDGAR文件中精准提取展品附件(误检率需控制在4%以内)等工程难题。
常用场景
经典使用场景
Material Contracts Corpus (MCC) 数据集在合同设计与法律语言研究中展现出卓越价值。其收录的百万份公开公司合同文件,为学术界提供了分析合同条款演变、语言复杂性趋势的丰富素材。通过细分的协议类型标签(如证券、雇佣、并购等),研究者能够纵向比较不同时期、行业背景下合同范式的差异,例如发现雇佣协议在SEC备案中持续占据主导地位的现象。该数据集尤其适合探究法律文本的量化特征,如通过Flesch-Kincaid可读性指标揭示合同语言日益复杂的趋势。
实际应用
在法律科技领域,MCC成为开发AI法律工具的重要基石。其结构化数据支持合同智能审查系统的训练,例如自动识别并购协议中的关键条款或评估雇佣合同合规性。金融监管机构可利用该数据集监测系统性风险,如分析证券协议中高频出现的金融机构关联网络。企业法务部门则能通过缔约方关联查询功能,快速定位特定实体的历史合同范本,提升商业谈判效率。数据集提供的合同修订状态标签(修正案/重述等)进一步增强了实务工作的精准性。
衍生相关工作
MCC催生了多个法律与AI交叉领域的创新研究。基于其构建的LegalBench(Guha et al., 2023)成为评估大模型法律推理能力的基准测试工具。ACORD数据集(Wang et al., 2025)利用MCC的合同框架开发了法律文件检索系统。在理论研究层面,Arbel(2024)关于合同可读性的开创性工作直接依赖该数据集的语言复杂度指标。此外,ContractNLI(Koreeda & Manning, 2021)等合同语义理解模型的突破,也得益于MCC提供的海量真实合同文本作为训练素材。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作