Financial QA dataset
收藏github2024-06-30 更新2024-07-01 收录
下载链接:
https://github.com/Abhay06102003/FinGPT-0.5
下载链接
链接失效反馈官方服务:
资源简介:
一个用于微调Llama模型的金融问答数据集,旨在提供关于纳斯达克上市股票的详细信息。
A financial question-answering dataset for fine-tuning Llama models, which aims to provide detailed information about stocks listed on the NASDAQ.
创建时间:
2024-06-29
原始信息汇总
FinGPT-0.5 数据集概述
数据集描述
FinGPT-0.5 是一个针对纳斯达克上市股票提供详细信息的微调 LLaMA 模型。该模型在 7k 金融数据集上进行训练,能够回答用户的问题。
功能特点
- 从 Alpha Vantage API 提取公司概况。
- 提取股票数据。
- 从 Alpha Vantage API 和其他不同的 SEC API 提取股票新闻和股票资产负债表。
- 汇总所有数据以提供整体股票信息。
- 提供简要的公司概况和行业信息。
使用方法
- 提供模型纳斯达克股票代码和相关问题。
- 模型从 API 提取数据,并将数据块发送到由 Facebook 创建的 FAISS 向量数据库。
- 创建上下文并将问题与上下文一起传递给预训练和微调的 LLM 模型。
模型详细信息
架构
- 基于 transformer 架构,使用标准 transformer 块和预归一化。
- 采用旋转位置嵌入(RoPE)。
训练方法
- 使用优化的 transformer 实现进行训练。
- 使用 AdamW 优化器。
- 采用余弦学习率调度。
- 采用梯度裁剪和权重衰减。
分词化
- 使用 32,000 个词元的字节对编码(BPE)。
上下文窗口
- LLaMA: 2048 个词元
- LLaMA 2: 扩展到 4096 个词元
训练数据
- 在约 1.4 万亿个词元上进行训练。
- 数据来源包括 CommonCrawl、C4、GitHub、Wikipedia、Books、ArXiv 和 StackExchange。
计算要求
- 65B 模型的训练使用了 2048 个 A100 GPU 进行 21 天。
推理优化
- 支持多种量化技术以加快推理速度。
- 可以在消费者硬件上运行,通过适当的优化。
性能指标
- 在多个基准测试中进行评估,包括 MMLU、HellaSwag、TruthfulQA。
- 在某些任务上表现优于许多更大的模型。
关键创新
- 分组查询注意力以提高效率。
- 在 LLaMA 2 中改进了微调技术。
微调细节
- 使用 Llama -3 8B 模型。
- 使用著名的 Unsloth 库,使微调更高效和快速。
- 使用 4 位量化以减少内存使用。
- 使用参数高效微调方法,秩为 8,alpha 为 32。
- 在应用 PEFT 之前,总可训练参数为 8,037,076,992,应用 PEFT 后减少到总参数的 0.0848%,即 6,815,744。
使用示例
示例输入
输入包含两部分:
- 纳斯达克股票代码。
- 与该股票相关的问题。
示例:
symbol = AMZN question = "Explain the growth rate?"
输出:
首先从 FAISS 向量数据库创建上下文,然后将上下文与问题一起传递给提示,并生成响应。
收入和利润数据:
- 净销售额:
- 2022: $513,983 million
- 2023: $574,785 million
- 同比增长:12%
- 北美:
- 2022: $315,880 million
- 2023: $352,828 million
- 同比增长:12%
- 国际:
- 2022: $118,007 million
- 2023: $131,200 million
- 同比增长:11%
- AWS:
- 2022: $80,096 million
- 2023: $90,757 million
- 同比增长:13%
同比增长率:
- 北美:12% (2022-2023)
- 国际:11% (2022-2023)
- AWS:13% (2022-2023)
- 合并:12% (2022-2023)
债务水平和比率: 未提供债务信息。
市场份额: 未提供。
显著趋势或变化:
- 销售增长主要由第三方卖家、广告销售和订阅服务的增加单位销售驱动。
- 继续关注价格、选择和客户便利性,包括从运输优惠。
- 外汇汇率变化在 2023 年影响了净销售额 $71 million。
未来增长率: 未提供。
总体情绪: 公司的销售增长稳定,2023 年同比增长 12%。增长主要由增加单位销售、广告销售和订阅服务驱动。然而,公司的收入增长可能不可持续,未来增长率可能会下降。总体情绪为中性,略有上升趋势。
搜集汇总
数据集介绍

构建方式
Financial QA dataset的构建基于LLaMA模型的微调,该模型通过整合Alpha Vantage API和SEC API的数据,提取了纳斯达克上市公司的概况、股票数据、新闻及财务报表等信息。数据集的构建过程中,首先从这些API中提取原始数据,然后通过Facebook的FAISS向量数据库进行数据整合和索引,最终形成一个包含7000条记录的金融问答数据集。
使用方法
使用Financial QA dataset时,用户需提供纳斯达克股票代码及相关的金融问题。系统将自动从FAISS向量数据库中提取相关数据,并结合预训练的LLaMA模型生成详细回答。用户可以通过简单的API调用或直接输入问题,获取包括财务数据、市场趋势及情感分析在内的多维度信息,从而辅助决策。
背景与挑战
背景概述
金融领域的人工智能应用近年来取得了显著进展,特别是在自然语言处理(NLP)和问答系统方面。Financial QA dataset,作为这一领域的代表性数据集,由知名研究机构或团队开发,旨在通过微调LLaMA模型,提供关于纳斯达克上市公司的详细信息。该数据集的创建时间虽未明确,但其核心研究问题在于如何利用大规模金融数据训练模型,以实现高效、准确的金融问答。这一研究不仅推动了金融科技的发展,也为其他领域的问答系统提供了宝贵的参考。
当前挑战
尽管Financial QA dataset在金融问答领域展现了潜力,但其构建和应用过程中仍面临诸多挑战。首先,数据集的构建依赖于多个API的整合,如Alpha Vantage和SEC API,这要求高度的数据处理能力和技术集成。其次,模型的微调过程涉及复杂的参数调整和优化,如使用4位量化和参数高效微调方法,以减少内存占用和提高训练效率。此外,模型的性能评估需在多个基准上进行,如MMLU和TruthfulQA,以确保其在不同任务中的表现。最后,尽管模型在情感分析方面表现良好,但在更详细的股票分析上仍有改进空间,这需要进一步的技术创新和数据优化。
常用场景
经典使用场景
在金融领域,Financial QA数据集的经典使用场景主要集中在自动化金融问答系统。该系统通过整合来自Alpha Vantage API和SEC API的数据,能够实时提取并汇总纳斯达克上市公司的财务信息,如股票数据、新闻、资产负债表等。用户只需提供股票代码和相关问题,系统即可生成详细的财务分析报告,包括收入和利润的增长率、债务水平、市场趋势等。这种自动化问答系统极大地提高了金融分析师和投资者获取和分析信息的效率。
解决学术问题
Financial QA数据集解决了金融领域中信息获取和分析效率低下的学术问题。传统上,金融分析师需要手动从多个数据源收集和整理信息,这一过程耗时且容易出错。该数据集通过自动化数据提取和整合,显著减少了这一过程中的时间和人力成本,同时提高了数据的准确性和一致性。此外,该数据集还支持情感分析,为学术研究提供了新的维度,有助于深入理解市场情绪对金融决策的影响。
实际应用
在实际应用中,Financial QA数据集被广泛用于金融科技公司和投资机构的自动化分析工具。这些工具能够实时监控和分析股票市场动态,为投资者提供决策支持。例如,投资顾问可以使用该数据集快速生成客户投资组合的财务健康报告,帮助客户理解市场趋势和潜在风险。此外,金融教育平台也可以利用该数据集开发互动式学习工具,帮助学生和新手投资者更好地理解复杂的金融概念和市场动态。
数据集最近研究
最新研究方向
在金融领域,基于大规模预训练语言模型(LLM)的问答系统正成为研究热点。特别是,针对纳斯达克上市公司的财务数据进行细粒度分析和问答,已成为前沿研究方向。通过结合Alpha Vantage API和SEC数据,研究者们致力于提升模型的数据提取和整合能力,以提供更为详尽的公司概况和行业信息。此外,利用Facebook的FAISS向量数据库进行上下文构建,进一步优化了问答系统的响应速度和准确性。这些技术的融合不仅提升了金融数据分析的效率,也为投资者提供了更为智能化的决策支持工具。
以上内容由遇见数据集搜集并总结生成



