DianJin-R1Data

Name: DianJin-R1Data
Creator: 阿里巴巴云计算
Published: 2025-04-22 17:01:04
License: 暂无描述

arXiv2025-04-22 更新2025-04-24 收录

下载链接：

https://huggingface.co/DianJin

下载链接

链接失效反馈

官方服务：

资源简介：

DianJin-R1Data是一个高质量的数据集，由阿里巴巴云计算和苏州大学合作构建，旨在评估和增强大型语言模型在金融领域的推理能力。该数据集结合了CFLUE、FinQA和专有的合规数据集（CCC），涵盖了多种金融推理场景和经过验证的注释。数据集包含了31,000多个金融资格考试的推理注释选择题和开放性问题，以及数值推理问题和复杂的合规场景，为模型训练提供了丰富的资源。

DianJin-R1Data is a high-quality dataset co-constructed by Alibaba Cloud and Soochow University, aiming to evaluate and enhance the reasoning capabilities of large language models (LLMs) in the financial domain. This dataset integrates CFLUE, FinQA and a proprietary compliance dataset (CCC), covering diverse financial reasoning scenarios and verified annotations. It contains over 31,000 multiple-choice questions and open-ended questions with reasoning annotations for financial qualification examinations, as well as numerical reasoning questions and complex compliance scenarios, providing abundant resources for model training.

提供机构：

阿里巴巴云计算

创建时间：

2025-04-22

搜集汇总

数据集介绍

构建方式

DianJin-R1Data数据集的构建采用了多源融合与严格验证的策略，整合了CFLUE金融资格考试题库、FinQA数值推理数据集及自研的中文合规检查语料(CCC)。通过三阶段过滤机制（长度筛选、难度筛选、歧义消除）确保数据质量，并利用GPT-4o和DeepSeek-R1模型生成推理链，经双重验证（答案匹配性、推理一致性）后形成最终样本。针对对话型合规数据，创新性采用多智能体工作流模拟人工审核过程，生成可追溯的合规判断推理路径。

特点

该数据集具备领域专业性与推理结构化双重特征：覆盖中英双语31,000+高质量金融推理样本，包含选择题转开放题、数值计算、多轮对话合规检查等多元场景。所有样本均标注标准答案及标准化推理步骤（<think>...</think>标签），其中合规检查数据独创性地采用树状条件节点分解策略，实现复杂业务逻辑的可解释性建模。测试集特别包含200条真实客服对话合规案例，为金融风控研究提供稀缺实证数据。

使用方法

数据集支持监督微调(SFT)与强化学习(RL)双阶段应用：SFT阶段以<think>推理链+<answer>答案的格式训练模型生成结构化输出；RL阶段采用GRPO算法结合格式奖励（输出规范性）和精度奖励（答案正确性）进行优化。针对合规检查任务，既可基于完整数据集训练端到端模型，也可参照论文中的多智能体工作流设计分层决策系统。为保障评估可靠性，建议对FinQA和CCC任务采用GPT-4o进行答案语义匹配验证。

背景与挑战

背景概述

DianJin-R1Data是由阿里巴巴云计算团队和苏州大学的研究人员共同构建的高质量金融推理数据集，旨在评估和增强大型语言模型（LLMs）在金融领域的推理能力。该数据集整合了CFLUE、FinQA和专有的中文合规检查（CCC）数据集，覆盖了多样化的金融推理场景，包括金融资格考试模拟题、数值推理问题和合规检查对话。DianJin-R1Data的构建标志着金融领域自然语言处理技术的重要进展，特别是在需要领域专业知识、精确数值计算和严格合规性的复杂任务中。

当前挑战

DianJin-R1Data面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，金融推理任务要求模型具备深厚的领域知识、准确的数值计算能力和对合规规则的严格遵守，这些要求使得金融推理成为LLMs中极具挑战性的任务。在构建过程中，研究人员需要解决数据源的多样性和复杂性，例如如何从多选题目生成开放式问题、如何确保生成的推理路径与参考解释一致，以及如何通过多智能体系统合成复杂的合规检查推理数据。此外，数据质量的验证和过滤也是构建过程中的关键挑战，需要通过多步过滤和人工审核确保数据的高质量和可靠性。

常用场景

经典使用场景

DianJin-R1Data数据集在金融领域的大语言模型（LLM）推理能力评估与增强中展现出经典应用场景。该数据集通过整合CFLUE、FinQA及专有合规语料库（CCC），构建了涵盖多样化金融推理任务的高质量标注数据，特别适用于模型在金融资格模拟考试题、数值推理及合规检查等复杂场景下的性能测试与优化。其结构化输出格式（如<think>和<answer>标签）为模型生成可解释的推理路径提供了标准化框架，成为金融领域LLM微调的基准工具。

衍生相关工作

该数据集衍生出多项金融NLP领域的经典工作：1）基于GRPO强化学习的推理优化框架，通过双奖励信号（格式奖励与精度奖励）协调结构化输出与答案正确性；2）多智能体协同推理生成技术，将复杂合规检查分解为条件节点链式评估；3）跨语言金融推理迁移研究，揭示中文训练数据对英文任务（如FinQA）的泛化潜力。相关方法已被DeepSeek-R1等后续工作引用并扩展。

数据集最近研究