five

taddeusb90/finbro-v0.1.0

收藏
Hugging Face2024-04-30 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/taddeusb90/finbro-v0.1.0
下载链接
链接失效反馈
官方服务:
资源简介:
Finbro数据集是一个专为金融领域设计的语言学习模型(LLMs)训练和微调而构建的聚合数据集。数据集包含超过384k条条目,结合了来自Investopedia和Sujet Finance两个主要来源的数据。Investopedia部分包含通过非结构化抓取提取的结构化问答对,旨在减少模型输出中的幻觉;Sujet Finance部分则汇集了来自HuggingFace上18个不同数据集的多种金融任务。数据集的结构包括输入、指令、输出和来源字段,并且通过去重和合并过程确保了数据的一致性和完整性。数据集目前仍在开发中,未来将添加更多真实和合成的金融数据。
提供机构:
taddeusb90
原始信息汇总

Finbro 数据集概述

数据集基本信息

  • 许可证: Apache 2.0
  • 任务类别:
    • 文本分类
    • 问答
    • 摘要生成
  • 语言: 英语
  • 标签: 金融
  • 美观名称: finbro-v0.1.0
  • 大小类别: 100K<n<1M

数据集描述

Finbro 数据集是一个包含超过 384,000 条记录的广泛集合,旨在用于训练和微调金融领域的语言学习模型(LLMs)。该数据集结合了来自两个重要来源的条目,这两个来源都为金融领域的多样化 LLM 应用提供了独特的元素。

数据来源

  1. Investopedia: 包含通过非结构化抓取提取的结构化问答对,优化以最小化模型输出的幻觉。
  2. Sujet Finance: 从 HuggingFace 上的 18 个不同数据集中汇集的综合金融任务集合。

数据集组成

  • 总条目数: 超过 300,000 条合并条目。
  • 字段:
    • input: 标识每个条目的系统或来源。
    • instruction: 提供给模型的提示或问题。
    • output: 包含模型的响应,可能包括上下文信息或直接答案。
    • source: 指定每个条目原始数据集。

来源数据集详情

Investopedia 指令调优数据集

  • 描述: 包含从 Investopedia 文章中精选的问答对,旨在训练 LLMs 提供准确的金融建议。
  • 示例:
    • 主题: 抵押贷款
    • 标题: 如何使用房屋净值贷款进行改造
    • 上下文: 讨论房屋净值贷款的利弊。
    • 问答: 比较房屋净值贷款与个人贷款。
  • 许可证: Apache 2.0

Sujet Finance 数据集

  • 描述: 包含多种金融文本数据的丰富编译,包括情感分析、直接问答和命名实体识别。
  • 组成:
    • 情感分析: 44,209 条记录
    • 问答 (直接和上下文): 79,276 条记录
    • 主题分类: 16,990 条记录
  • 数据来源: 包含多个数据集,如 gbharti/finance-alpaca, ugursa/Yahoo-Finance-News-Sentences 等。
  • 许可证: Apache 2.0

数据集创建

  • 合并过程: 根据与金融任务的相关性和数据完整性,仔细去重和合并条目。此过程涉及跨不同来源对齐数据结构和格式。
  • 最终结构: 确保所有条目格式统一,便于在 LLM 应用中使用。

许可证

Finbro 数据集在 Apache 2.0 许可证下发布。该许可证允许在任何媒介中使用、分发和复制,前提是原始作品被正确引用,并且更改被明确指示。

持续开发

注意: 该数据集正在开发中。将逐步添加更多真实和合成数据。用户在使用此数据集时应谨慎,因为更新可能会改变数据的结构和内容。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作