personal-finance-chatml-dataset
收藏Hugging Face2026-03-07 更新2026-03-08 收录
下载链接:
https://huggingface.co/datasets/williamjmorenor/personal-finance-chatml-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个专业策划的双语(英语/西班牙语)指令数据集,旨在用于个人金融领域的大型语言模型(LLMs)的微调。数据集采用ChatML格式,适用于监督微调(SFT)、领域适应和金融指令建模。数据集从会计角度创建和审查,确保概念精确和术语一致性。数据集结构包括系统消息、用户问题和助手回答的对话格式。涵盖的主题包括个人金融基础、预算、收入和支出管理、货币时间价值、复利、债务管理、投资基础、风险管理和退休规划等。数据集适用于监督微调、指令调优、金融领域专业化、教育金融助手以及双语金融NLP研究。数据集不适用于无人工监督的自动金融咨询系统、监管或税务合规自动化以及高风险投资决策系统。数据集具有教育性和指导性,反映了结构化的会计视角,但不包括地区税法和特定司法管辖区的法规。数据集采用MIT许可证。
创建时间:
2026-02-25
原始信息汇总
Bilingual Personal Finance ChatML Dataset (EN/ES) 数据集概述
数据集基本信息
- 名称:Bilingual Personal Finance ChatML Dataset (EN/ES)
- 语言:英语 (
en)、西班牙语 (es) - 许可协议:MIT License
- 规模类别:1K<n<10K
- 任务类别:文本生成、问答
- 任务ID:解释生成
数据集描述
这是一个专业策划的双语(英语/西班牙语)指令数据集,专为在个人理财领域微调大型语言模型而设计。数据集采用ChatML格式,适用于监督微调、领域适应和金融指令建模。数据集的创建和审核均从会计角度出发,确保了概念的精确性和术语的一致性。
数据集结构
每个条目遵循以下JSON结构: json { "messages": [ {"role": "system", "content": "..."}, {"role": "user", "content": "..."}, {"role": "assistant", "content": "..."} ] }
字段说明
question:扁平格式的用户问题(等同于messages[1].content)。answer:扁平格式的助手回答(等同于messages[2].content)。messages:ChatML对话格式(包含system、user、assistant)。
涵盖主题
- 个人理财基础
- 预算编制
- 收入与支出管理
- 货币时间价值
- 复利
- 债务管理
- 投资基础
- 风险管理
- 退休规划
标注过程
数据集避免提供国家特定的法律建议,除非明确说明。
预期用途
- 监督微调
- 指令调优
- 金融领域专业化
- 教育性金融助手
- 双语金融自然语言处理研究
非预期用途
- 无人监督的自动化财务咨询系统
- 监管或税务合规自动化
- 高风险投资决策系统
该数据集本质上是教育和指导性的。
数据划分
如果提供,则包括:
- 训练集
- 验证集
- 测试集
否则,用户可根据实验需求自行划分。
偏见、风险与限制
- 数据集反映了结构化的会计视角。
- 默认不包含地区税法或特定司法管辖区的法规。
- 不提供个性化的财务建议。
- 可能无法反映新兴金融工具或监管变化。
版本信息
- v0.0.1 — 初始双语版本
引用
若在研究中使用此数据集,请引用:
@dataset{bilingual_personal_finance_chatml, author = {William José Moreno Reyes (CP/MBA)}, title = {Bilingual Personal Finance ChatML Dataset (EN/ES)}, year = {2026}, publisher = {BMO Soluciones, S.A.} }
来源
- GitHub仓库:https://github.com/williamjmorenor/personal-finance-chatml-dataset
搜集汇总
数据集介绍
构建方式
在个人金融知识普及领域,该数据集采用专业会计视角进行精心构建,确保概念准确性与术语一致性。构建过程严格遵循双语对照原则,涵盖预算管理、债务处理及投资基础等核心主题,通过结构化标注流程生成符合ChatML格式的对话数据,为金融领域的语言模型训练提供高质量语料。
特点
该数据集具备鲜明的双语特性与专业领域深度,同时支持英语与西班牙语的双向学习。其内容设计聚焦个人金融知识体系,从复利计算到退休规划均形成逻辑连贯的知识模块,数据条目采用标准化的对话角色结构,便于模型理解金融咨询场景中的交互模式与专业表述。
使用方法
使用者可通过加载标准化的JSON结构数据,直接应用于监督微调与指令调优等训练流程。该数据集适用于构建教育型金融助手或开展双语金融自然语言处理研究,建议根据实验需求划分训练集与验证集,并注意避免将其用于自动化投资决策等高风险场景。
背景与挑战
背景概述
随着大型语言模型在专业领域应用的深化,金融自然语言处理领域亟需高质量、结构化的指令数据集以支持模型的领域适应与微调。personal-finance-chatml-dataset由William José Moreno Reyes(CP/MBA)及其所属机构BMO Soluciones, S.A.于2026年创建,旨在为个人理财领域提供一个双语(英语/西班牙语)的对话式数据集。该数据集基于会计视角精心构建,覆盖预算管理、债务处理、投资基础及退休规划等核心议题,致力于推动金融教育助手与双语金融NLP研究的发展,为模型在复杂金融语境下的可靠性与准确性奠定基础。
当前挑战
在个人理财领域,构建高质量对话数据集面临双重挑战:其一,领域问题本身涉及复杂的金融概念与术语,要求模型不仅需准确理解跨语言的专业表述,还需避免生成具有误导性或不合规的财务建议;其二,数据集构建过程中需确保双语内容在概念与术语上的一致性,同时平衡教育性与实用性,避免引入地域性法规偏差,并维持会计视角下的严谨逻辑结构,这增加了数据标注与验证的复杂度。
常用场景
经典使用场景
在个人金融教育领域,该数据集为大型语言模型的监督微调提供了专业支持。其采用ChatML格式构建的双语对话结构,能够有效模拟真实金融咨询场景,帮助模型学习预算编制、债务管理和投资基础等核心主题的精准回应。通过系统化的指令调优,模型得以在金融专业术语和概念解释上实现领域适应,为构建教育型金融助手奠定数据基础。
实际应用
在实际应用层面,该数据集为开发多语言金融教育工具提供了核心训练资源。基于其构建的模型可集成至在线学习平台,为用户提供即时性的个人理财概念解释与规划建议。金融机构亦能借助此类模型开发内部培训系统,辅助员工掌握基础金融知识,同时避免涉及具体税务法规的高风险应用场景,确保技术在合规框架内发挥教育价值。
衍生相关工作
该数据集的发布催生了多项金融自然语言处理领域的衍生研究。学者们以其为基础探索了指令调优在跨语言金融问答中的迁移效果,并开发了针对退休规划与风险管理等子任务的专项模型。部分工作进一步扩展了数据集的覆盖主题,融合实时金融数据以增强模型时效性,形成了从基础概念教学到动态场景分析的技术演进脉络。
以上内容由遇见数据集搜集并总结生成



