Nemotron-SpecializedDomains-Finance-v1-prompt-only

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/jamesdborin/Nemotron-SpecializedDomains-Finance-v1-prompt-only

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-SpecializedDomains-Finance-v1-prompt-only 是一个专门针对金融领域的提示数据集，从源数据集 nvidia/Nemotron-SpecializedDomains-Finance-v1 中提取，仅包含提示（prompt）内容。该数据集通过 Nemotron Post-Training v3 提示提取器工作流生成，由用户 jamesdborin 上传。核心文件 prompts.csv 包含 326,698 条提取记录，每条记录代表从源数据行中提取的一个提示，包括 prompt 字段、独立的 system_prompt 字段，以及当源数据行定义了可用工具时对应的结构化 tools 信息（嵌套值以 JSON 格式编码存储在 CSV 单元格内）。此外，数据集还提供了两个辅助文件：summary.md 记录了源数据行数、提取行数、数量差异以及失败的提示数量等统计信息；null_or_empty_rows.md 列出了提示提取结果为 null 或空的行索引。该数据集适用于金融领域的大语言模型（LLM）提示工程、微调、评估等相关任务。

Nemotron-SpecializedDomains-Finance-v1-prompt-only is a prompt-only dataset specialized for the financial domain, extracted from the source dataset nvidia/Nemotron-SpecializedDomains-Finance-v1. It is generated via the Nemotron Post-Training v3 prompt extractor workflow and uploaded by user jamesdborin. The core file, prompts.csv, contains 326,698 extracted records, each representing a prompt extracted from a source data row, including prompt and separate system_prompt fields, along with structured tools information (with nested values encoded as JSON within CSV cells) when the source row defines available tools. The dataset also includes two auxiliary files: summary.md documents statistics such as source row count, extracted row count, quantity differences, and failed prompt counts; null_or_empty_rows.md lists row indices where prompt extraction results are null or empty. This dataset is suitable for tasks related to prompt engineering, fine-tuning, and evaluation of large language models (LLMs) in the financial domain.

创建时间：

2026-06-26

原始信息汇总

数据集名称：Nemotron-SpecializedDomains-Finance-v1-prompt-only
数据集简介：基于 nvidia/Nemotron-SpecializedDomains-Finance-v1 提取的仅含提示（prompt-only）数据集，适用于后训练场景。
数据集来源：nvidia/Nemotron-SpecializedDomains-Finance-v1
数据集配置与结构
- 默认配置（default），包含一个训练集（train），数据文件为 prompts.csv。
- 每条记录包含 prompt（提示）、system_prompt（系统提示，已分离），以及当源行定义了可用工具时包含结构化的 tools（工具定义，嵌套值以 JSON 编码在 CSV 单元格中）。
附加文件
- summary.md：记录源行数量、提取行数量、数量差异以及失败的提示数量。
- null_or_empty_rows.md：列出因提示提取产生空或空值提示的行索引。
数据统计摘要
- 提取行数：326,698
- 失败提示行数：0
- 行数差异：0（即提取前后行数一致）
数据集来源与上传者：由 jamesdborin 上传，来自 Nemotron Post-Training v3 提示提取工作流。

搜集汇总

数据集介绍

构建方式

该数据集源自NVIDIA推出的Nemotron-SpecializedDomains-Finance-v1，经过后训练阶段的提示提取流程处理而成。具体而言，通过自动化工具从原始数据集的每一行中剥离出独立的提示记录，并将其中嵌套的工具定义（tools）以JSON格式编码后嵌入CSV单元格内。同时，系统提示（system_prompt）被分离存储，最终汇总为包含326698条有效提示的单一CSV文件，并附有详细的提取统计与失败行索引文档。

使用方法

用户可直接加载prompts.csv文件，利用其中的‘prompt’字段作为模型输入，‘system_prompt’字段设置对话上下文，‘tools’字段（若有）定义可调用的外部工具接口。典型应用包括金融问答系统的后训练优化或零样本评估。建议结合PyTorch的DataLoader或HuggingFace的datasets库进行批量处理，并参考summary.md确认数据规模无误后开展实验。

背景与挑战

背景概述

随着大型语言模型在垂直领域的应用日益深化，金融领域因数据的高专业性、动态性与结构化特征，对模型驯化提出严苛要求。Nemotron-SpecializedDomains-Finance-v1-prompt-only 数据集由 NVIDIA 研究团队于 2023 年发布，旨在为金融领域大模型的后训练阶段提供高质量指令数据。该数据集从原始金融语料中系统提取提示（prompt），涵盖系统提示、用户输入及结构化工具调用，共包含约 32.7 万条记录。作为 Nemotron 项目的重要组成部分，它聚焦于弥合通用语言模型与金融专业任务之间的语义鸿沟，推动金融问答、文档分析及合规审查等场景下的模型精准度提升，在金融人工智能领域具有示范性影响力。

当前挑战

该数据集面临的核心领域挑战在于金融文本的强领域性与低错误容忍度——模型需精准理解专业术语、图表数字及法规条款，同时应对市场动态带来的数据时效性难题。构建过程中，研究人员需从复杂金融文档中分离提示与工具调用，处理嵌套 JSON 的 CSV 编码、避免提示丢失或空值，并平衡指令多样性以避免模型过拟合于特定模板。此外，大规模标注数据的隐私合规与跨境金融数据脱敏，进一步加剧了数据集构建的工程复杂度与法律风险。

常用场景

经典使用场景

Nemotron-SpecializedDomains-Finance-v1-prompt-only数据集在金融领域的自然语言处理研究中扮演着举足轻重的角色。它聚焦于金融专业场景，通过从原始数据集中精心提取提示（prompt），为研究者提供了结构化的监督学习信号。该数据集最经典的使用场景是用于微调大型语言模型，使其在金融文本理解、金融术语解析和金融任务指令遵循等能力上得到显著增强。例如，研究者和开发者可以借助这些包含系统提示和结构化工具定义的记录，训练模型精准执行金融问答、财务报表分析、风险管理策略生成等特定任务。这种精细化的提示提取方式确保了模型后训练阶段的高效性，使得模型能够更好地适应金融领域的专业表述和复杂推理需求。

解决学术问题

该数据集有效攻克了金融领域大语言模型后训练中面临的监督信号稀缺且非结构化这一关键学术难题。在学术研究中，金融文本往往充斥着专业术语、复杂逻辑和隐式规则，传统通用数据集难以提供足够的领域特定指令信号。Nemotron-SpecializedDomains-Finance-v1-prompt-only通过提取并公开高质、分离的系统提示和工具描述，为研究者提供了标准的、可复用的训练范式。它解决了如何让通用语言模型在参数高效微调下快速习得金融领域知识的问题，推动了迁移学习在垂直金融领域的理论探索。这一成果的意义在于，它降低了金融NLP研究的门槛，使得学术机构无需从零构建大规模金融数据集，进而加速了金融智能问答、条款自动解读等方向的理论突破。

实际应用

在实际产业应用中，Nemotron-SpecializedDomains-Finance-v1-prompt-only数据集展现出巨大的转化价值。它能够直接赋能金融科技公司构建智能客服系统，使对话机器人精准理解客户关于股票行情、基金收益、利率变动等问题的深层意图。基于该数据集微调后的模型，还可部署在银行柜面、保险理赔和风险监控等环节，自动生成合规报告或预警提示。此外，在量化投资领域，经过此数据集训练的模型能够更准确地解析行业研报和政策文件，辅助投资决策。这些应用不仅提升了金融服务的运营效率，还通过减少人工干预降低了操作风险，真正将学术研究中的模型能力延伸至业务流程自动化之中。

数据集最近研究