taddeusb90/finbro-v0.1.0
收藏Hugging Face2024-04-30 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/taddeusb90/finbro-v0.1.0
下载链接
链接失效反馈官方服务:
资源简介:
Finbro数据集是一个专为金融领域设计的语言学习模型(LLMs)训练和微调而构建的聚合数据集。数据集包含超过384k条条目,结合了来自Investopedia和Sujet Finance两个主要来源的数据。Investopedia部分包含通过非结构化抓取提取的结构化问答对,旨在减少模型输出中的幻觉;Sujet Finance部分则汇集了来自HuggingFace上18个不同数据集的多种金融任务。数据集的结构包括输入、指令、输出和来源字段,并且通过去重和合并过程确保了数据的一致性和完整性。数据集目前仍在开发中,未来将添加更多真实和合成的金融数据。
提供机构:
taddeusb90
原始信息汇总
Finbro 数据集概述
数据集基本信息
- 许可证: Apache 2.0
- 任务类别:
- 文本分类
- 问答
- 摘要生成
- 语言: 英语
- 标签: 金融
- 美观名称: finbro-v0.1.0
- 大小类别: 100K<n<1M
数据集描述
Finbro 数据集是一个包含超过 384,000 条记录的广泛集合,旨在用于训练和微调金融领域的语言学习模型(LLMs)。该数据集结合了来自两个重要来源的条目,这两个来源都为金融领域的多样化 LLM 应用提供了独特的元素。
数据来源
- Investopedia: 包含通过非结构化抓取提取的结构化问答对,优化以最小化模型输出的幻觉。
- Sujet Finance: 从 HuggingFace 上的 18 个不同数据集中汇集的综合金融任务集合。
数据集组成
- 总条目数: 超过 300,000 条合并条目。
- 字段:
input: 标识每个条目的系统或来源。instruction: 提供给模型的提示或问题。output: 包含模型的响应,可能包括上下文信息或直接答案。source: 指定每个条目原始数据集。
来源数据集详情
Investopedia 指令调优数据集
- 描述: 包含从 Investopedia 文章中精选的问答对,旨在训练 LLMs 提供准确的金融建议。
- 示例:
- 主题: 抵押贷款
- 标题: 如何使用房屋净值贷款进行改造
- 上下文: 讨论房屋净值贷款的利弊。
- 问答: 比较房屋净值贷款与个人贷款。
- 许可证: Apache 2.0
Sujet Finance 数据集
- 描述: 包含多种金融文本数据的丰富编译,包括情感分析、直接问答和命名实体识别。
- 组成:
- 情感分析: 44,209 条记录
- 问答 (直接和上下文): 79,276 条记录
- 主题分类: 16,990 条记录
- 数据来源: 包含多个数据集,如 gbharti/finance-alpaca, ugursa/Yahoo-Finance-News-Sentences 等。
- 许可证: Apache 2.0
数据集创建
- 合并过程: 根据与金融任务的相关性和数据完整性,仔细去重和合并条目。此过程涉及跨不同来源对齐数据结构和格式。
- 最终结构: 确保所有条目格式统一,便于在 LLM 应用中使用。
许可证
Finbro 数据集在 Apache 2.0 许可证下发布。该许可证允许在任何媒介中使用、分发和复制,前提是原始作品被正确引用,并且更改被明确指示。
持续开发
注意: 该数据集正在开发中。将逐步添加更多真实和合成数据。用户在使用此数据集时应谨慎,因为更新可能会改变数据的结构和内容。



