SgMy-Compliance-Instruct-500

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/d1272/SgMy-Compliance-Instruct-500

下载链接

链接失效反馈

官方服务：

资源简介：

SgMy-Compliance-Instruct-500 是一个高质量、由专家精心策划的指令调优数据集，包含 500 个条目，专注于东南亚（特别是马来西亚和新加坡）的监管环境。数据集分为现代商业运营的五个关键支柱，每个条目旨在通过结构化的Naive vs. Expert思维链（CoT）方法，训练大型语言模型（LLMs）从简单的文档摘要转向专业的监管推理。数据集以 .jsonl 格式提供，每个条目包含 pillar（主题类别）、context（监管引用或规则片段）、instruction（现实商业困境或员工查询）、thought（内部推理块）和 response（专业、法律依据的回答）字段。数据集适用于监督微调（SFT）、思维链蒸馏（CoT Distillation）、检索增强生成（RAG）基准测试和合规红队测试（Compliance Red-Teaming）等任务。需要注意的是，该数据集仅用于 AI 训练和研究目的，不构成法律或专业建议，且其内容截至 2024 年初，可能随法规更新而过时。

创建时间：

2026-04-25

原始信息汇总

SgMy-Compliance-Instruct-500 数据集详情

数据集概述

SgMy-Compliance-Instruct-500 是一个高质量、专家策划的指令微调数据集，包含 500 条数据，专注于东南亚地区（特别是 马来西亚和新加坡）的监管环境。

该数据集旨在训练大型语言模型（LLM），从简单的文档摘要过渡到 专业的监管推理，使用结构化的“初学者 vs. 专家”思维链方法。

五大支柱领域

数据集按五大支柱平均分布，每个支柱 100 条数据：

支柱编号	支柱名称	管辖区域	主要覆盖法规
1	银行反洗钱/了解你的客户	马来西亚、新加坡、全球	2001年反洗钱法、新加坡金融管理局第626号通知、马来西亚国家银行反洗钱/反恐融资/反扩散融资政策、反洗钱金融行动特别工作组建议
2	数据隐私	马来西亚、新加坡	马来西亚2010年个人数据保护法、新加坡2012年个人数据保护法、谢绝来电登记处
3	技术风险	马来西亚、新加坡	马来西亚国家银行风险管理信息技术、新加坡金融管理局技术风险管理指南
4	工作场所安全	马来西亚、新加坡	马来西亚1994年职业安全与健康法（2022年修订）、新加坡工作场所安全与健康法
5	数字资产	马来西亚、新加坡	马来西亚证券委员会数字资产交易所/首次交易所发行指南、新加坡金融管理局支付服务法

数据结构

数据集以 .jsonl 格式提供，每行是一个独立的 JSON 对象，包含以下字段：

pillar：主题类别（1-5）
context：具体的监管引文或规则片段
instruction：真实的商业困境、员工查询或边缘案例场景
thought：内部推理块，遵循 初学者 vs. 专家 逻辑
response：专业、有法律依据的答复，引用相关文档

示例条目

json { "pillar": "1_Banking_AML_KYC", "context": "[Document AML-01] BNM AML/CFT/CPF Policy, Para 14.10: For high-risk customers, reporting institutions must perform Enhanced Due Diligence (EDD).", "instruction": "A corporate client is owned 30% by a Trust in a tax haven. Is standard KYC sufficient?", "thought": "<think>[Naive Impulse]: 30% is a lot, so just get the registration papers. [Expert Critique]: Under BNM, 25% triggers BO identification, and tax havens elevate risk. [Corrected Logic]: EDD is mandatory due to jurisdiction and ownership.</think>", "response": "No, standard KYC is insufficient. According to [Document AML-01], since the ownership exceeds 25% and involves a high-risk jurisdiction, the bank must perform Enhanced Due Diligence (EDD)." }

数据集高质量特点

初学者 vs. 专家推理架构：每个条目包含思维块，识别常见错误（初学者冲动）、使用法律原则进行批判（专家批判），并综合正确路径（修正逻辑），训练模型的合规判断过程。
严格监管依据（适合检索增强生成）：每条回答都锚定到特定的文档ID和监管框架，是测试检索增强生成系统能否检索到确切来源的理想基准。
操作边缘案例：指令聚焦于控制权 vs. 所有权、泄密悖论、现代技术风险等复杂困境。
管辖区域细微差异：捕捉马来西亚和新加坡之间的具体差异，如不同报告时限和本地治理。

限制与声明

非法律建议：仅供人工智能训练和研究使用。
时间敏感性：数据反映截至 2024年初 的法规，未来修订可能使部分条目过时。
地理范围：逻辑严格针对 马来西亚和新加坡，不适用于其他司法管辖区。
非穷尽性：虽覆盖500个高风险场景，但并非这些地区所有法律的完整百科全书。

支持的任务

监督式微调：训练模型作为专业的合规顾问
思维链蒸馏：使用推理块改进小型模型的逻辑能力
检索增强生成基准测试：针对特定文档ID测试检索准确性
合规红队测试：评估模型在受到业务指令压力时是否会抵制走捷径或社会工程攻击

搜集汇总

数据集介绍

构建方式

SgMy-Compliance-Instruct-500数据集是基于东南亚（马来西亚与新加坡）金融监管法规体系精心构建的高保真指令微调数据集。该数据集由合规领域专家手工编纂，涵盖银行业反洗钱/客户尽职调查、数据隐私、技术风险、职场安全及数字资产五大核心支柱，每个支柱均衡收录100条样本。每条样本遵循独特的“天真vs.专家”链式推理架构：先模拟业务人员常见的直觉性错误，再以法律原则进行专业批判，最终合成正确的合规判断逻辑，并将回复严格锚定至具体的法规条文编号（如BNM、MAS等），形成可检索的RAG基准样本。

特点

该数据集的核心特点在于其精密的“天真vs.专家”双轨推理设计，有效引导大语言模型从机械摘要跃升至专业监管推理。每条样本的思维链明确标识出常见误区、专家批判与修正逻辑，使模型习得合规判断的内在过程而非简单记忆。此外，数据集高度聚焦于运营边缘场景，如控制权与所有权的博弈、举报悖论及新兴技术风险，并精准捕捉马新两国在报告时限、治理架构等方面的司法差异，为模型注入区域性的监管敏感度。

使用方法

该数据集适用于监督式微调，以训练模型扮演专业合规顾问角色；其结构化的思维链可用于蒸馏推理能力至轻量级模型，提升逻辑性。由于每条回复均引用特定文件编号，该数据集亦是评测检索增强生成系统检索精度的理想基准。此外，可用于合规红队演练，检验模型在面对业务压力时是否抵制“走捷径”或社交工程式诱导，从而强化模型在真实金融场景中的可靠性。

背景与挑战

背景概述

在金融科技与跨境合规监管日益严格的背景下，东南亚地区因其多元的法律体系与快速演变的监管框架，成为自然语言处理（NLP）与法学交叉研究的前沿阵地。SgMy-Compliance-Instruct-500数据集于2024年初由专业合规团队与人工智能研究者联合创建，聚焦于马来西亚与新加坡的反洗钱、数据隐私、技术风险、工作场所安全及数字资产五大关键领域。该数据集通过引入“天真vs专家”的思维链推理架构，旨在提升大语言模型从文档摘要迈向专业监管推理的能力。其严格的法律引用与数百个运营边缘案例，不仅为指令微调与检索增强生成系统提供了高保真基准，更在学界与工业界推动了合规领域AI系统的可解释性与可信赖性研究。

当前挑战

该数据集面临的核心挑战在于弥合法规文本的静态性与实际业务场景的动态复杂性。首先，结构性挑战体现为如何将晦涩的法律条款转化为可供模型学习的因果推理路径，而非简单的事实匹配，这对数据构建中的专家知识蒸馏与逻辑标注提出了极高要求。其次，跨辖区监管冲突（如两国对报告时限与增强尽调门槛的差异）要求模型具备精确的语境感知能力，而现有数据集的稀疏性难以覆盖所有例外情形。此外，知识时效性危机尤为突出，随着2024年后多国监管更新，早期条目可能迅速过时，维护与迭代成本显著。最终，模型在面对社会工程施压与合规捷径诱惑时，能否保持鲁棒拒绝能力，仍是当前评估体系中的薄弱环节。

常用场景

经典使用场景

SgMy-Compliance-Instruct-500是专为东南亚金融科技与合规领域设计的高保真指令微调数据集，其经典使用场景聚焦于训练大型语言模型进行专业监管推理。通过500条精心编排的条目，覆盖银行业反洗钱/了解你的客户、数据隐私、技术风险、工作场所安全及数字资产五大核心支柱，该数据集引导模型从简单的文档摘要跃升至结构化思维链推理。每一条目均包含“天真直觉”与“专家批判”的对比思考过程，使模型学会识别合规判断中的常见谬误，并基于马来西亚国家银行、新加坡金融管理局等特定监管框架给出精准回应。这种设计尤其适合监督式微调任务，助力模型化身为具备跨境合规智识的智能顾问。

衍生相关工作

围绕该数据集已衍生出一系列启发性工作，特别是在思维链蒸馏与合规红队测试方向。研究者常利用其“天真vs专家”推理架构，将大型教师模型的合规判断逻辑蒸馏至更轻量级的学生模型，实现边缘设备上的高效部署。同时，该数据集成为评估语言模型抗社会工程攻击能力的试金石，通过注入模拟违规压力的指令，测试模型是否会摒弃专业原则而给出危险捷径。此外，基于其严格监管引文设计的检索增强生成基准挑战赛，激发了多篇比较不同检索策略与编码器在特定法律文档库表现的前沿论文，有力推动了法律人工智能的可解释性研究。

数据集最近研究