Compliance-to-Code

Name: Compliance-to-Code
Creator: 香港科技大学（广州）, 中山大学, 加利福尼亚大学河滨分校
Published: 2025-05-26 18:38:32
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://github.com/AlexJJJChen/Compliance-to-Code

下载链接

链接失效反馈

官方服务：

资源简介：

Compliance-to-Code数据集是一个针对金融监管合规的大规模中文数据集，由香港科技大学（广州）等研究机构开发。该数据集包含来自361项法规的1,159个标注条款，涵盖了十个类别，每个条款都模块化地分为四个逻辑元素：主体、条件、约束和上下文信息，并附有法规关系。数据集还提供了确定性Python代码映射、详细的代码推理和代码解释，以促进自动审计。为了展示其实用性，论文中还介绍了FinCheck管道，这是一个用于法规结构化、代码生成和报告生成的端到端流程。

The Compliance-to-Code Dataset is a large-scale Chinese dataset focused on financial regulatory compliance, developed by The Hong Kong University of Science and Technology (Guangzhou) and other research institutions. This dataset contains 1,159 annotated clauses sourced from 361 regulations, covering ten categories. Each clause is modularly divided into four logical elements: subject, condition, constraint, and contextual information, and is paired with regulatory relationship annotations. The dataset also provides deterministic Python code mappings, detailed code reasoning, and code explanations to facilitate automated auditing. To demonstrate its practical utility, the FinCheck pipeline, an end-to-end workflow for regulatory structuring, code generation, and report generation, is introduced in the associated paper.

提供机构：

香港科技大学（广州）, 中山大学, 加利福尼亚大学河滨分校

创建时间：

2025-05-26

原始信息汇总

TOMORIN: 法律领域基准数据集概述

数据集基本信息

名称: TOMORIN
用途: 评估大型语言模型(LLMs)将法规条例转换为机器可操作的监管推断的能力
维护者: Siyuan LI
联系方式: lisiyuansven@foxmail.com

项目结构

主要目录

MEU_to_code/
- MEU_code/
  - GT/ (人工标注的真实数据)
  - raw_response/ (模型原始回复)
- MEU_selected_with_relation_GT/
converter/ (临时文件转换路径)
data_simulation/
- data_generated/
- data_labeled/
law_to_MEU/ (法条拆解为MEU的任务)
- st_0_law_docx/ (原始法律文档)
- st_1_law_csv/ (CSV格式法律条文)
- st_2_law_keywords_definitions/ (关键词和定义提取)
- st_3_0_MEU/ (法条拆分为MEU)
- st_3_1_inner_relations/ (MEU内部关系)
- st_4_MEU_relations/ (MEU间关系)
- st_5_MEU_Graph_HTML/ (MEU图可视化)
- st_6_MEU_evaluate/ (MEU评分)

数据格式规范

文件编码: UTF-8-SIG (便于Excel打开)
原始回复格式: CSV
解析后格式: XLSX
GT数据格式: XLSX

MEU Graph数据结构

标准字段: ["MEU_id", "subjec", "condition", "constraint", "contextual_info", "relation", "target"]
可选字段: ["confirmed", "comments", "comments_relation"]

核心任务说明

1. 法条转化为MEU Graph

st_1_get_law_from_doc.ipynb: 法律文档转CSV
st_2_get_keywords_and_definition.ipynb: 提取关键词和定义
st_3_0_get_MEU_from_law.ipynb: 法条拆分为MEU
st_3_1_get_inner_relation.ipynb: 提取MEU内部关系
st_4_get_relation_from_MEU.ipynb: 提取MEU间关系
st_5_draw_MEU_Graph.ipynb: MEU图可视化

2. MEU Graph评估

st_6_MEU_evaluate.ipynb: 对比生成MEU与GT_MEU

3. 数据转换工具

csv_xlsx_convert.ipynb: CSV与XLSX格式互转

搜集汇总

数据集介绍

构建方式

Compliance-to-Code数据集通过系统分析361份中国金融监管文件构建而成，涵盖10个监管领域的1,159个法律条款。研究团队采用四阶段标注流程：首先由法律专家将条款分解为合规单元（CU），标注主体、条件、约束和上下文信息四个逻辑要素；其次建立单元间引用、排除、专属包含和应包含四种关系；随后抽象出68种合规逻辑范式并生成Python代码模板；最后通过双专家评审确保代码与监管要求的精确对应。数据集包含307个可执行Python模块，每个模块均配备详细的思维链推理注释，实现了从自然语言条款到确定性代码的标准化映射。

使用方法

数据集支持三种典型应用范式：监管文本结构化（R2S）任务可将原始条款解析为合规单元及其关系图；结构到代码生成（S2C）任务基于标注的CU生成可执行合规逻辑；端到端代码生成（R2C）任务直接实现从自然语言到审计代码的转换。使用建议包括：1）利用FinCheck管道实现结构化预测、代码生成、数据检索和报告输出的全流程自动化；2）通过监督微调提升模型在中文金融语义理解和逻辑推理方面的性能；3）参考代码模块中的思维链注释进行合规决策的可解释性分析。实验表明Qwen3-8B模型经微调后在结构解析任务上达到63.24%的F1值，在复杂代码生成任务中Pass@1达24.55%。

背景与挑战

背景概述

Compliance-to-Code数据集由香港科技大学（广州）等机构的研究团队于2025年推出，是首个专注于中国金融监管合规的大规模中文数据集。该数据集基于361份权威金融监管文件，系统性地提取了1,159个标注条款，涵盖独立董事制度、季度报告义务、股权激励等十大核心监管领域。其创新性体现在将自然语言法规解构为包含主体、条件、约束和上下文信息的合规单元（CU），并配套生成可执行的Python代码模块，为监管科技（RegTech）领域提供了从文本到代码的端到端解决方案。该数据集通过FinCheck自动化合规检查管道，显著提升了大型语言模型在金融合规场景下的结构化解析和代码生成能力，为中文金融监管的智能化转型建立了新基准。

当前挑战

该数据集主要面临三大核心挑战：在领域问题层面，金融监管条款具有高度专业性和逻辑复杂性，需精准处理多层条件、例外条款和量化阈值（如送转股后每股收益低于0.2元的精确计算）；在构建过程中，需解决中文法律文本特有的语义模糊性（如'控股股东'与'实际控制人'的实体区分）和跨条款引用问题；技术实现上，要求生成的Python代码必须保持监管逻辑的时序一致性（如股份回购禁止期的日期计算）和可审计性。此外，现有英文主导的法律数据集（如LexGLUE）在中文金融领域的适用性有限，需建立全新的标注体系和评估标准。

常用场景

经典使用场景

在金融合规自动化领域，Compliance-to-Code数据集通过将复杂的金融监管条款转化为可执行的Python代码模块，为监管科技（RegTech）提供了标准化解决方案。其典型应用场景包括：金融机构自动解析《北京证券交易所》发布的规范性文件，例如将'高送转方案披露限制'条款（含多层条件与例外）转化为可验证的代码逻辑，实现对上市公司公告数据的实时合规筛查。

解决学术问题

该数据集有效解决了金融合规自动化中的三大核心学术问题：一是填补了中文金融监管条款与可执行代码间映射的数据空白，二是通过模块化标注（主体/条件/约束/上下文）提升了LLM对复杂法律逻辑的层次化推理能力，三是提供的307个带专家推理链的代码样本，为研究监管条款的时序逻辑一致性提供了验证基准。其标注的864条跨条款关系（如'引用''排除'）尤其推动了组合式合规推理的研究进展。

实际应用

在实际应用中，基于该数据集开发的FinCheck系统已被用于上市公司合规审计流程。例如自动检测《权益分派指引》第19条违规场景：当系统识别到某公司'送转股后每股收益<0.2元'时，即刻触发约束条件'不得披露高送转方案'的代码验证，并生成中英文双语合规报告。某券商测试显示，该系统将人工复核时间从8小时/份缩短至15分钟，准确率达92.7%。

数据集最近研究