Compliance-to-Code
收藏github2025-06-02 更新2025-06-05 收录
下载链接:
https://github.com/AlexJJJChen/Compliance-to-Code
下载链接
链接失效反馈官方服务:
资源简介:
Compliance-to-Code是第一个大规模中文金融监管合规数据集,专为基于代码的合规推理设计。它包含来自361条法规的1,159个注释条款,分为十个类别,带有307个Python模块和详细的推理步骤。
Compliance-to-Code is the first large-scale Chinese financial regulatory compliance dataset, specifically designed for code-based compliance reasoning. It encompasses 1,159 annotated clauses from 361 regulations, categorized into ten types, accompanied by 307 Python modules and detailed reasoning steps.
创建时间:
2025-05-16
原始信息汇总
Compliance-to-Code 数据集概述
基本信息
- 数据集名称: Compliance-to-Code
- 研究领域: 金融合规自动化
- 主要贡献: 首个面向中文金融监管合规的大规模代码生成数据集
- 核心功能: 通过代码生成增强金融合规检查能力
数据集内容
- 数据来源: 361份北京证券交易所(BSE)发布的权威中文金融法规
- 标注内容:
- 1,159个标注条款(合规单元)
- 864个单元间关系标注
- 307个可执行的Python自动化任务
- 数据结构:
- 清洁的监管文本
- 结构化合规单元(包含主体、条件、约束、上下文信息)
- 标注的单元间关系(引用、排除、仅包含、应包含)
- Python编码的合规自动化任务
数据统计
| 指标 | 数量 |
|---|---|
| 分析的法规 | 361 |
| 标注条款 | 1,159 |
| 可执行Python任务 | 307 |
| 平均推理步骤 | 8步 |
| 平均每步token数 | 2,145 |
监管领域覆盖
| 领域/方面 | 合规控制重点 | 源条款数 | 合规单元数 | 文档字数 |
|---|---|---|---|---|
| 独立董事制度 | 独立性要求、董事提名/诚信审查 | 30 | 126 | 5,446 |
| 季度报告义务 | 及时性、内容充分性 | 16 | 32 | 1,888 |
| 股权激励与ESOPs | 计划审批、风险限制 | 66 | 154 | 8,132 |
| 股份回购控制 | 回购流程、阈值触发 | 78 | 266 | 11,458 |
| 要约收购合规 | 收购代码触发、程序控制 | 36 | 113 | 4,827 |
使用信息
- 数据格式: JSON和CSV
- 访问方式:
- Huggingface: https://huggingface.co/datasets/GPS-Lab/Compliance-to-Code
- GitHub: https://github.com/AlexJJJChen/Compliance-to-Code
- 配套工具: FinCheck管道(包含法规结构化和代码生成模块)
许可信息
- 许可证类型: 知识共享署名-非商业性4.0国际许可(CC BY-NC 4.0)
- 法规来源: 北京证券交易所公开文件
相关论文
- 标题: Compliance-to-Code: Enhancing Financial Compliance Checking via Code Generation
- arXiv链接: https://arxiv.org/abs/2505.19804
搜集汇总
数据集介绍

构建方式
在金融监管领域,合规性检查的自动化需求日益凸显。Compliance-to-Code数据集通过系统化标注方法构建,研究团队从361份北京证券交易所发布的权威金融监管文件中提取了1,159条合规条款,涵盖独立董事制度、季度报告义务等十大核心领域。每条合规条款被解构为包含主体、条件、约束等要素的合规单元,并标注了单元间的864种逻辑关系。特别值得注意的是,研究者还开发了307个可执行的Python合规自动化任务,每个任务平均包含8步思维链推理过程,体现了从监管条文到可执行代码的完整转化链条。
特点
作为首个面向中文金融监管合规的大规模数据集,Compliance-to-Code展现出鲜明的专业特色。其核心价值在于将晦涩的监管条文转化为结构化的1,159个合规单元,每个单元都包含详细的上下文信息和逻辑要素标注。数据集特别设计了难度分级的Python自动化任务(简单70.03%、中等11.07%、困难18.89%),并配备平均2,145token的思维链推理说明。覆盖的十大监管领域具有代表性,如股权激励控制模块包含154个合规单元,股份回购控制模块达266个单元,形成了层次分明的金融合规知识体系。
使用方法
该数据集通过Huggingface平台和GitHub开源发布,提供JSON和CSV两种结构化格式。研究人员可重点利用三个维度的标注信息:原始监管文本的清洁版本、带有逻辑要素的结构化合规单元、以及单元间的引用/排除等语义关系。配套的FinCheck管道工具支持端到端应用,包含从监管条文结构化解析(R2S)到代码生成(S2C)的全流程。使用建议关注Qwen3-8B等大语言模型在监管结构化任务中的表现,其监督微调版本在实验中获得显著效果提升。所有应用需遵循CC BY-NC 4.0非商业许可协议。
背景与挑战
背景概述
金融监管合规性对企业治理至关重要,然而复杂的法规条文往往难以准确解读。2025年,香港科技大学(广州)联合中山大学、加州大学河滨分校的研究团队推出了Compliance-to-Code数据集,这是首个面向中文金融监管合规的大规模标注数据集。该数据集包含来自361项监管条例的1,159条标注条款,通过结构化逻辑元素与Python代码映射关系,为合规自动化提供了系统化解决方案。其创新性体现在将自然语言法规转化为可执行代码逻辑的范式转换,填补了中文金融科技领域监管智能化的研究空白。
当前挑战
该数据集着力解决金融监管智能化中的核心难题:中文法规条款的语义歧义性导致传统NLP模型解析准确率不足,以及跨条款逻辑关联的复杂性制约自动化合规检查效果。在构建过程中,研究团队面临标注体系设计的双重挑战:既要保持法律文本的专业严谨性,又需满足代码生成任务的机器可读性要求。此外,中文金融术语的多义性、条款间隐含逻辑关系的显性化标注,以及不同监管领域知识的结构化统一,都是数据集构建过程中需要克服的技术难点。
常用场景
经典使用场景
在金融合规领域,Compliance-to-Code数据集为研究者和从业者提供了一个标准化的平台,用于探索如何将复杂的金融监管条文转化为可执行的代码逻辑。该数据集特别适用于训练和评估大型语言模型在中文金融法规解析和合规检查任务中的表现。通过结构化标注的合规单元和Python代码映射,研究人员能够深入分析法规文本的语义逻辑,并开发自动化合规检查工具。
解决学术问题
该数据集有效解决了金融科技领域中的几个关键学术问题:一是填补了中文金融法规自动化解析的数据空白,二是提供了细粒度的法规逻辑标注和代码生成基准,三是为跨领域知识融合(法律与编程)研究提供了实验平台。其标注体系揭示了法规条文中的隐含逻辑关系,为构建可解释的合规推理系统奠定了基础。
衍生相关工作
基于该数据集已催生多项创新研究,包括香港科技大学团队开发的FinCheck端到端合规检查管道,以及后续学者在跨语言合规代码生成方面的拓展工作。在金融自然语言处理领域,该数据集启发了对中文法规语义解析的新方法探索,如基于逻辑约束的文本结构化技术。相关成果已推动AI+Law跨学科研究向可执行代码生成方向发展。
以上内容由遇见数据集搜集并总结生成



