DianJin-R1-Data, CFLUE

github2025-04-23 更新2025-04-24 收录

下载链接：

https://github.com/aliyun/qwen-dianjin

下载链接

链接失效反馈

官方服务：

资源简介：

DianJin-R1-Data数据集是DianJin-R1系列的一部分，包括两个强大的模型：DianJin-R1-7B和DianJin-R1-13B。CFLUE是一个中文金融语言理解评估数据集，用于评估大型语言模型在金融领域的表现。

The DianJin-R1-Data dataset is a part of the DianJin-R1 series, encompassing two powerful models: DianJin-R1-7B and DianJin-R1-13B. The CFLUE is a Chinese Financial Language Understanding Evaluation dataset designed to assess the performance of large language models in the financial domain.

创建时间：

2025-04-21

原始信息汇总

数据集概述：Qwen DianJin

📌 基本信息

平台名称：Tongyi DianJin（通义点金）
开发机构：阿里云（Alibaba Cloud）
领域：金融人工智能解决方案
核心功能：提供金融场景的大语言模型（LLM）、多模态模型（LMM）及标准化API能力。

🗂 已发布资源

数据集

DianJin-R1-Data
- 发布渠道：
  - ModelScope
  - HuggingFace
CFLUE（Chinese Financial Language Understanding Evaluation）
- 发布时间：2025年1月6日
- 下载地址：
  - ModelScope
  - HuggingFace

模型

DianJin-R1系列（2025年4月23日开源）：
- DianJin-R1-7B
- DianJin-R1-13B
- DianJin-R1-32B
- 发布渠道：
  - ModelScope
  - HuggingFace
- 技术报告：arXiv:2504.15716

✨ 核心特性

智能应用场景

金融服务：信用卡还款提醒、营销素材生成等。
投资研究：研报摘要、金融翻译、交易指标问答等。
运营数据查询：指标问答、异常告警等。

开放平台能力

文档问答：金融场景知识库问答。
指标问答：支持指标解析与可视化。
多智能体系统：支持节点配置与编排。

📚 学术引用

bibtex @article{dianjin-r1, title = {DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models}, author = {Jie Zhu, Qian Chen, and Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, and Chi Zhang}, journal = {arxiv.org/abs/2504.15716}, year = {2025} }

@inproceedings{zhu-etal-2024-benchmarking, title = "Benchmarking Large Language Models on CFLUE - A Chinese Financial Language Understanding Evaluation Dataset", author = "Jie Zhu, Junhui Li, Yalong Wen, Lifan Guo", booktitle = "Findings of ACL", year = "2024", pages = "5673--5693", }

📧 联系方式

官方邮箱：CFLUE@alibabacloud.com

⚠️ 免责声明

用户需自行承担使用开源模型及数据的风险，建议独立验证输出结果并谨慎决策。

搜集汇总

数据集介绍

构建方式

在金融科技领域，DianJin-R1-Data和CFLUE数据集的构建体现了严谨的学术规范与行业需求的深度结合。数据集通过阿里云金融智能平台的专业支持，整合了信用卡还款提醒、移动银行导航、研究报告摘要等真实金融场景的多维度数据。构建过程中采用标准化API接口采集原始数据，并经过金融专家团队的多轮清洗和标注，确保数据质量符合金融行业的高标准要求。数据划分严格遵循机器学习基准测试规范，设置了训练集、验证集和测试集的科学配比。

特点

该数据集最显著的特点是专注于中文金融语言理解领域，包含研究报告摘要、金融新闻信息抽取、客服意图识别等特色任务。数据覆盖银行服务、投资研究、运营数据查询三大核心金融场景，每个样本都经过严格的脱敏处理和金融术语标准化。与通用领域数据集相比，其优势在于专业金融术语覆盖率高达95%，且标注体系引入了金融专家验证机制。数据集同时提供标准化的评估指标，包括精确率、召回率等金融场景特化指标。

使用方法

研究者可通过ModelScope或HuggingFace平台获取数据集完整版本。使用前需仔细阅读数据使用协议，建议在Python3.8以上环境通过官方提供的SDK进行加载。数据集支持主流的深度学习框架，并附有详细的baseline代码示例。对于特定金融子领域的应用，可参考技术报告中提供的领域适配建议。需要注意，由于数据敏感性，使用过程需严格遵守金融数据安全规范，输出结果应进行专业复核。

背景与挑战

背景概述

DianJin-R1-Data与CFLUE数据集由阿里云通义团队于2024至2025年间相继发布，标志着金融自然语言处理领域的重要突破。作为中文金融语言理解评估基准，CFLUE在ACL-2024发表的论文中系统性地构建了涵盖信贷分析、财报解读、金融客服等多场景的评估体系，而DianJin-R1系列则进一步扩展了金融大模型的训练语料规模。这两个数据集通过标准化金融术语标注体系与多维度任务设计，显著提升了模型在复杂金融语境下的语义解析能力，为学术界和工业界提供了关键的基准测试工具。

当前挑战

金融领域文本特有的专业术语密集性和语义歧义性，对构建高质量标注数据集提出严峻挑战。CFLUE需解决中文金融文本中同词多义现象（如"头寸"在不同场景的语义差异）的精准标注问题，同时应对金融政策动态更新导致的标注标准漂移。DianJin-R1-Data在构建过程中面临非结构化金融文档（如PDF版年报）的跨模态解析难题，需开发专门的表格重建与数学公式识别技术。两个数据集均需平衡金融数据敏感性带来的脱敏处理与语料信息完整性的矛盾，这对数据可用性评估提出特殊要求。

常用场景

经典使用场景

在金融科技领域，DianJin-R1-Data和CFLUE数据集为自然语言处理研究提供了丰富的金融文本资源。这些数据集广泛应用于金融文本分类、情感分析和信息抽取任务，特别是在中文金融语言理解方面展现出独特价值。研究人员利用这些数据集训练和评估模型在金融领域的语义理解能力，为后续的金融知识图谱构建和智能问答系统开发奠定基础。

实际应用

在实际金融场景中，这些数据集支撑了智能投研报告生成、金融客服意图识别等核心业务应用。银行和证券机构利用基于该数据集训练的模型，实现了财报关键信息自动提取、市场情绪分析等实用功能。其多任务评估框架也为金融机构的AI能力测评提供了客观标准，显著降低了金融智能化转型的技术门槛。

衍生相关工作

围绕该数据集已衍生出多项重要研究，包括ACL-2024收录的金融大模型基准测试研究。相关工作探索了领域预训练、金融知识注入等技术路线，催生了DianJin-R1系列开源模型。这些衍生成果不仅完善了金融NLP的技术体系，更为构建金融垂直领域的大语言模型提供了方法论参考和实践范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集