five

Compliance-to-Code

收藏
arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://github.com/AlexJJJChen/Compliance-to-Code
下载链接
链接失效反馈
官方服务:
资源简介:
Compliance-to-Code数据集是一个针对金融监管合规的大规模中文数据集,由香港科技大学(广州)等研究机构开发。该数据集包含来自361项法规的1,159个标注条款,涵盖了十个类别,每个条款都模块化地分为四个逻辑元素:主体、条件、约束和上下文信息,并附有法规关系。数据集还提供了确定性Python代码映射、详细的代码推理和代码解释,以促进自动审计。为了展示其实用性,论文中还介绍了FinCheck管道,这是一个用于法规结构化、代码生成和报告生成的端到端流程。

The Compliance-to-Code Dataset is a large-scale Chinese dataset focused on financial regulatory compliance, developed by The Hong Kong University of Science and Technology (Guangzhou) and other research institutions. This dataset contains 1,159 annotated clauses sourced from 361 regulations, covering ten categories. Each clause is modularly divided into four logical elements: subject, condition, constraint, and contextual information, and is paired with regulatory relationship annotations. The dataset also provides deterministic Python code mappings, detailed code reasoning, and code explanations to facilitate automated auditing. To demonstrate its practical utility, the FinCheck pipeline, an end-to-end workflow for regulatory structuring, code generation, and report generation, is introduced in the associated paper.
提供机构:
香港科技大学(广州), 中山大学, 加利福尼亚大学河滨分校
创建时间:
2025-05-26
原始信息汇总

TOMORIN: 法律领域基准数据集概述

数据集基本信息

  • 名称: TOMORIN
  • 用途: 评估大型语言模型(LLMs)将法规条例转换为机器可操作的监管推断的能力
  • 维护者: Siyuan LI
  • 联系方式: lisiyuansven@foxmail.com

项目结构

主要目录

  1. MEU_to_code/

    • MEU_code/
      • GT/ (人工标注的真实数据)
      • raw_response/ (模型原始回复)
    • MEU_selected_with_relation_GT/
  2. converter/ (临时文件转换路径)

  3. data_simulation/

    • data_generated/
    • data_labeled/
  4. law_to_MEU/ (法条拆解为MEU的任务)

    • st_0_law_docx/ (原始法律文档)
    • st_1_law_csv/ (CSV格式法律条文)
    • st_2_law_keywords_definitions/ (关键词和定义提取)
    • st_3_0_MEU/ (法条拆分为MEU)
    • st_3_1_inner_relations/ (MEU内部关系)
    • st_4_MEU_relations/ (MEU间关系)
    • st_5_MEU_Graph_HTML/ (MEU图可视化)
    • st_6_MEU_evaluate/ (MEU评分)

数据格式规范

  • 文件编码: UTF-8-SIG (便于Excel打开)
  • 原始回复格式: CSV
  • 解析后格式: XLSX
  • GT数据格式: XLSX

MEU Graph数据结构

  • 标准字段: ["MEU_id", "subjec", "condition", "constraint", "contextual_info", "relation", "target"]
  • 可选字段: ["confirmed", "comments", "comments_relation"]

核心任务说明

1. 法条转化为MEU Graph

  • st_1_get_law_from_doc.ipynb: 法律文档转CSV
  • st_2_get_keywords_and_definition.ipynb: 提取关键词和定义
  • st_3_0_get_MEU_from_law.ipynb: 法条拆分为MEU
  • st_3_1_get_inner_relation.ipynb: 提取MEU内部关系
  • st_4_get_relation_from_MEU.ipynb: 提取MEU间关系
  • st_5_draw_MEU_Graph.ipynb: MEU图可视化

2. MEU Graph评估

  • st_6_MEU_evaluate.ipynb: 对比生成MEU与GT_MEU

3. 数据转换工具

  • csv_xlsx_convert.ipynb: CSV与XLSX格式互转
搜集汇总
数据集介绍
main_image_url
构建方式
Compliance-to-Code数据集通过系统分析361份中国金融监管文件构建而成,涵盖10个监管领域的1,159个法律条款。研究团队采用四阶段标注流程:首先由法律专家将条款分解为合规单元(CU),标注主体、条件、约束和上下文信息四个逻辑要素;其次建立单元间引用、排除、专属包含和应包含四种关系;随后抽象出68种合规逻辑范式并生成Python代码模板;最后通过双专家评审确保代码与监管要求的精确对应。数据集包含307个可执行Python模块,每个模块均配备详细的思维链推理注释,实现了从自然语言条款到确定性代码的标准化映射。
使用方法
数据集支持三种典型应用范式:监管文本结构化(R2S)任务可将原始条款解析为合规单元及其关系图;结构到代码生成(S2C)任务基于标注的CU生成可执行合规逻辑;端到端代码生成(R2C)任务直接实现从自然语言到审计代码的转换。使用建议包括:1)利用FinCheck管道实现结构化预测、代码生成、数据检索和报告输出的全流程自动化;2)通过监督微调提升模型在中文金融语义理解和逻辑推理方面的性能;3)参考代码模块中的思维链注释进行合规决策的可解释性分析。实验表明Qwen3-8B模型经微调后在结构解析任务上达到63.24%的F1值,在复杂代码生成任务中Pass@1达24.55%。
背景与挑战
背景概述
Compliance-to-Code数据集由香港科技大学(广州)等机构的研究团队于2025年推出,是首个专注于中国金融监管合规的大规模中文数据集。该数据集基于361份权威金融监管文件,系统性地提取了1,159个标注条款,涵盖独立董事制度、季度报告义务、股权激励等十大核心监管领域。其创新性体现在将自然语言法规解构为包含主体、条件、约束和上下文信息的合规单元(CU),并配套生成可执行的Python代码模块,为监管科技(RegTech)领域提供了从文本到代码的端到端解决方案。该数据集通过FinCheck自动化合规检查管道,显著提升了大型语言模型在金融合规场景下的结构化解析和代码生成能力,为中文金融监管的智能化转型建立了新基准。
当前挑战
该数据集主要面临三大核心挑战:在领域问题层面,金融监管条款具有高度专业性和逻辑复杂性,需精准处理多层条件、例外条款和量化阈值(如送转股后每股收益低于0.2元的精确计算);在构建过程中,需解决中文法律文本特有的语义模糊性(如'控股股东'与'实际控制人'的实体区分)和跨条款引用问题;技术实现上,要求生成的Python代码必须保持监管逻辑的时序一致性(如股份回购禁止期的日期计算)和可审计性。此外,现有英文主导的法律数据集(如LexGLUE)在中文金融领域的适用性有限,需建立全新的标注体系和评估标准。
常用场景
经典使用场景
在金融合规自动化领域,Compliance-to-Code数据集通过将复杂的金融监管条款转化为可执行的Python代码模块,为监管科技(RegTech)提供了标准化解决方案。其典型应用场景包括:金融机构自动解析《北京证券交易所》发布的规范性文件,例如将'高送转方案披露限制'条款(含多层条件与例外)转化为可验证的代码逻辑,实现对上市公司公告数据的实时合规筛查。
解决学术问题
该数据集有效解决了金融合规自动化中的三大核心学术问题:一是填补了中文金融监管条款与可执行代码间映射的数据空白,二是通过模块化标注(主体/条件/约束/上下文)提升了LLM对复杂法律逻辑的层次化推理能力,三是提供的307个带专家推理链的代码样本,为研究监管条款的时序逻辑一致性提供了验证基准。其标注的864条跨条款关系(如'引用''排除')尤其推动了组合式合规推理的研究进展。
实际应用
在实际应用中,基于该数据集开发的FinCheck系统已被用于上市公司合规审计流程。例如自动检测《权益分派指引》第19条违规场景:当系统识别到某公司'送转股后每股收益<0.2元'时,即刻触发约束条件'不得披露高送转方案'的代码验证,并生成中英文双语合规报告。某券商测试显示,该系统将人工复核时间从8小时/份缩短至15分钟,准确率达92.7%。
数据集最近研究
最新研究方向
近年来,金融合规领域的研究日益聚焦于利用大语言模型(LLMs)和监管科技(RegTech)实现合规检查的自动化。Compliance-to-Code数据集作为首个专注于中文金融法规的大规模数据集,填补了现有英文数据集在领域适配性和细粒度合规代码生成方面的空白。该数据集通过结构化标注的合规单元(CUs)和可执行Python代码映射,显著提升了LLMs在金融合规逻辑解析和代码生成任务中的性能。前沿研究方向包括:1)结合领域知识增强LLMs的层次推理能力;2)开发混合符号-神经方法以提高合规逻辑的透明度和可审计性;3)探索跨法规的时序一致性建模。这些进展对降低企业合规成本、提升监管科技在中文金融场景的适用性具有重要意义,尤其在中国资本市场日益复杂的监管环境下,为自动化合规审计提供了可验证的技术路径。
相关研究论文
  • 1
    Compliance-to-Code: Enhancing Financial Compliance Checking via Code Generation香港科技大学(广州), 中山大学, 加利福尼亚大学河滨分校 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作