Nemotron-SpecializedDomains-Finance-v1
收藏Hugging Face2026-03-11 更新2026-03-13 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-SpecializedDomains-Finance-v1
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-SpecializedDomains-Finance 是一个大规模合成的金融问答数据集,旨在提升大型语言模型在专业金融推理和文档理解任务上的表现。该数据集包含超过326,000个高质量的问答对,这些问答对基于2019年至2024年间标普500公司的SEC文件生成。数据集采用模板化合成数据生成(SDG)方法,确保所有问题和答案都锚定在SEC文件的具体章节上,保证了事实准确性。数据集覆盖公司财务、风险因素、财务表现、治理、合规及业务运营等多个领域,并通过GenSelect方法过滤,确保回答的连贯性、准确性和上下文相关性。数据集格式为JSONL,每条样本包含角色化的对话结构(系统、用户、助手消息)和元数据。适用于金融领域专家系统的监督微调、特定领域推理、文档理解及金融问答系统开发等场景。数据集遵循CC BY 4.0许可,适合商业用途。
Nemotron-SpecializedDomains-Finance is a large-scale synthetic financial question-answering dataset aimed at enhancing the performance of large language models on professional financial reasoning and document understanding tasks. It contains over 326,000 high-quality question-answer pairs generated based on the SEC filings of S&P 500 companies from 2019 to 2024. The dataset employs the templated Synthetic Data Generation (SDG) methodology, ensuring that all questions and answers are anchored to specific sections of the SEC filings, thereby guaranteeing factual accuracy. It covers a wide range of domains including corporate finance, risk factors, financial performance, corporate governance, compliance, and business operations. It is filtered using the GenSelect method to ensure the coherence, factual accuracy, and contextual relevance of the answers. The dataset is stored in JSONL format, with each sample containing a role-based dialogue structure (system, user, and assistant messages) along with metadata. It is applicable to scenarios such as supervised fine-tuning for financial domain expert systems, domain-specific reasoning, document understanding, and the development of financial question-answering systems. The dataset is licensed under CC BY 4.0 and is suitable for commercial use.
提供机构:
NVIDIA
创建时间:
2026-03-09
搜集汇总
数据集介绍
构建方式
在金融信息处理领域,高质量数据集的构建对提升大型语言模型的专门化推理能力至关重要。Nemotron-SpecializedDomains-Finance-v1数据集采用基于模板的合成数据生成方法,其构建过程始于从SecQue基准中提取的565个经过验证的金融问题作为种子。通过将这些种子问题适配至标准普尔500指数成分股公司及其2019年至2024年间的财务报告周期,系统地将每个问题映射至美国证券交易委员会(SEC)文件(如10-K年报和10-Q季报)的特定章节。随后,利用GPT-OSS-120B模型以上下文为基础生成多个候选答案,并运用GenSelect方法通过更大型的评估模型筛选出在准确性、连贯性和上下文对齐方面最优的答案,最终经过自动化质量过滤,形成了超过32.6万个高质量的问答对。
特点
该数据集的核心特征在于其深厚的文档根基与高度的专业性。所有问答均严格锚定于SEC文件的具体章节,确保了事实的精确性,覆盖了公司金融、风险因素、财务表现、治理结构、监管合规及业务运营等多个金融子领域。数据集经过精心的质量筛选,保证了回答的连贯性、准确性以及与语境的恰当匹配。其数据格式已预先处理为对话结构,包含系统、用户和助手角色信息,可直接用于监督式微调,为金融领域的语言模型训练提供了即用型的高质量资源。
使用方法
对于致力于金融人工智能开发的工程师与研究团队而言,该数据集为模型训练与评估提供了便捷途径。用户可通过Hugging Face的`datasets`库直接加载数据集,访问其训练集等划分。每个数据样本以JSONL格式存储,包含结构化的对话消息数组和元数据。开发者可轻松提取用户查询与助手回复,用于对基础模型进行监督式微调,以增强其在金融术语理解、监管语言解析及长篇幅财务文档分析方面的专业能力。该数据集尤其适用于构建投资研究助手、合规分析工具及自动化财务分析系统等应用场景。
背景与挑战
背景概述
在金融科技与人工智能交叉领域,专业金融文档的理解与推理能力是大型语言模型(LLM)迈向实用化的关键瓶颈。为应对这一挑战,NVIDIA公司于2025年12月发布了Nemotron-SpecializedDomains-Finance-v1数据集,这是一个大规模合成金融问答数据集,旨在提升LLM在专业金融推理和文档理解任务上的性能。该数据集基于2019年至2024年标准普尔500指数公司的美国证券交易委员会(SEC)备案文件,通过模板驱动的合成数据生成技术,构建了超过32.6万条高质量问答对,覆盖公司财务、风险因素、治理合规等多个金融子领域。其核心研究问题聚焦于如何让通用大模型精准掌握金融术语、监管语言及企业披露模式,从而为投资研究、合规分析等实际应用提供可靠支持,显著推动了金融领域大模型的专业化发展。
当前挑战
该数据集致力于解决金融领域文档理解与复杂推理的固有难题,其核心挑战在于金融文本的专业性、结构复杂性以及信息的高度情境依赖性。具体而言,SEC备案文件通常篇幅冗长、术语密集且逻辑嵌套,要求模型不仅能提取表面信息,还需进行跨段落推理与数值计算。在构建过程中,挑战主要集中于合成数据的质量保障与事实一致性。尽管采用了基于SecQue基准的模板生成与GenSelect答案筛选方法,但如何确保合成问答在保持语义多样性的同时,严格锚定源文档的特定章节并避免幻觉,仍是一项艰巨任务。此外,将种子问题适配到不同公司与财年时,维持问题结构的有效性并准确映射至相应上下文,也对自动化流程的设计提出了极高要求。
常用场景
经典使用场景
在金融人工智能领域,Nemotron-SpecializedDomains-Finance-v1数据集为大型语言模型的监督微调提供了核心资源。该数据集通过模板化合成数据生成技术,构建了超过32.6万个基于美国证券交易委员会(SEC)文件的问答对,覆盖了标准普尔500指数公司2019年至2024年的财务报告。其经典应用场景在于训练模型进行深度的金融文档理解与推理,例如解析10-K年报和10-Q季报中的复杂财务信息,帮助模型掌握企业财务表现、风险因素、公司治理及合规要求等专业领域的知识体系。
实际应用
在实际应用层面,该数据集支撑了多种金融科技解决方案的开发。基于其训练的模型可集成至投资研究助手、合规审查工具及自动化财务分析系统中,辅助分析师快速提取SEC文件中的关键信息,评估公司财务状况与风险暴露。此外,它还能赋能智能投顾平台,为用户提供基于监管披露的深度见解,提升金融决策的效率和透明度。这些应用不仅优化了专业工作流程,也促进了金融服务行业的智能化转型。
衍生相关工作
围绕该数据集,已衍生出一系列重要的相关研究工作。其构建方法借鉴并扩展了SecQue基准的已验证问题模式,同时引入了GenSelect答案选择方法,这一方法在提升合成数据质量方面已成为领域内的重要参考。后续研究常以此数据集为基准,评估不同模型在金融问答任务上的性能,并探索更高效的领域自适应技术。这些工作共同推动了合成数据生成、专业领域微调以及评估方法论的发展,形成了金融自然语言处理领域的一个活跃研究分支。
以上内容由遇见数据集搜集并总结生成



