five

中电金信金融服务领域行业高质量数据集

收藏
国家数据集管理服务平台2026-04-09 更新2026-04-29 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=dd0523a0eb4172c32ae55194d7464e8b
下载链接
链接失效反馈
官方服务:
资源简介:
中电金信金融服务领域行业高质量数据集,是由中国电子旗下公司——中电金信构建的金融垂直领域语料数据集。数据总规模为2TB,目前已完成用于微调训练的指令对为32GB,包含2000万余条数据。该数据集以know-how级数据、项目脱敏材料、公开金融数据等作为目标语料,采用“数据驱动与AI驱动双轮协同”的模式,自动化采集、清洗、智能标注、数据蒸馏及多模态融合等关键技术,构建了专注于金融领域的高质量数据集。

The High-Quality Financial Services Industry Dataset, developed by DigitalTech Financial (a subsidiary of China Electronics Corporation), is a vertical financial domain corpus dataset. It has a total data volume of 2 TB, with 32 GB of instruction pairs for fine-tuning training completed to date, comprising over 20 million data entries. The target corpus of this dataset includes know-how-level data, de-identified project materials, public financial data, and other relevant sources. Adopting the two-wheel collaborative framework of data-driven and AI-driven development, core technologies such as automated data collection, cleaning, intelligent annotation, data distillation, and multimodal fusion are utilized to build this high-quality dataset focused exclusively on the financial sector.
提供机构:
中电金信软件有限公司
创建时间:
2026-04-08
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是由中电金信构建的金融垂直领域高质量语料数据集,总规模2TB,其中已完成32GB的微调训练指令对,包含超过2000万条数据。它采用'数据驱动与AI驱动双轮协同'模式,基于know-how级数据、项目脱敏材料和公开金融数据等语料,通过自动化采集、清洗、智能标注、数据蒸馏及多模态融合等关键技术构建,专注于金融服务领域。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务