AlphaFin

arXiv2024-03-19 更新2024-06-21 收录

下载链接：

https://github.com/AlphaFin-proj/AlphaFin

下载链接

链接失效反馈

官方服务：

资源简介：

AlphaFin数据集是由华南理工大学和阿里巴巴集团联合发布的，旨在支持金融分析任务的大型数据集。该数据集整合了传统的研究数据、实时金融数据以及手写链式思维（CoT）数据，包含四个主要部分：研究数据集、StockQA、金融新闻和金融报告。AlphaFin数据集的创建过程涉及从多个数据源收集和预处理数据，包括从学术界获取的传统金融数据集，以及从Tushare和AKshare获取的股票价格等金融数据。此外，还从CCTV和Wall Street CN等在线新闻源收集金融新闻，以及通过DataYes构建的金融报告数据集。AlphaFin数据集的应用领域主要集中在金融分析，特别是股票趋势预测和金融问答，旨在通过提供高质量、多样化的数据来增强大型语言模型在金融领域的性能。

The AlphaFin dataset, jointly released by South China University of Technology and Alibaba Group, is a large-scale dataset designed to support financial analysis tasks. It integrates traditional research data, real-time financial data, and handcrafted Chain-of-Thought (CoT) data, and consists of four core components: research dataset, StockQA, financial news, and financial reports. The development of the AlphaFin dataset involves data collection and preprocessing from multiple sources, including traditional financial datasets obtained from academic circles, as well as financial data such as stock prices acquired from Tushare and AKshare. In addition, financial news is collected from online news sources such as CCTV and Wall Street CN, and financial report datasets are constructed via DataYes. The application scenarios of the AlphaFin dataset mainly focus on financial analysis, particularly stock trend prediction and financial question answering. It aims to enhance the performance of Large Language Models (LLMs) in the financial domain by providing high-quality and diverse datasets.

提供机构：

华南理工大学，中国阿里巴巴集团，中国

创建时间：

2024-03-19

搜集汇总

数据集介绍

构建方式

AlphaFin数据集的构建方式是将传统的金融研究数据集、实时金融数据以及手工编写的思维链（CoT）数据相结合。该数据集包含了研究数据集、股票问答数据、金融新闻和财务报告等多个部分。研究数据集部分包括FPB、FinQA、Headline等传统金融数据集，用以增强LLMs的信息提取和摘要能力。股票问答数据集包含了来自Tushare和AKshare的股票价格和其他金融数据，以序列数据格式呈现。金融新闻数据集则整合了CCTV、华尔街日报等在线新闻来源，为LLMs提供实时金融知识。财务报告数据集则通过DataYes构建，包括机构对公司进行的分析和专业知识。为了提升LLMs在中文环境下的能力，研究数据集中仅选取了部分英文数据进行训练。股票问答数据集则利用ChatGPT生成相关问题，并生成问答对用于LLMs的训练。金融新闻数据集利用ChatGPT提取新闻摘要，以提升LLMs生成金融新闻摘要的能力。财务报告数据集则通过模板生成最终数据，并提供200份包含专业金融知识和较长标签的财务报告CoT数据，以提供LLMs逐步分析的能力。

特点

AlphaFin数据集的特点在于其综合了传统的金融研究数据集、实时金融数据以及手工编写的思维链（CoT）数据，为LLMs的金融分析能力提供了全面的支持。该数据集不仅包含了丰富的金融知识和信息，还提供了逐步分析的能力，使得LLMs能够更好地理解金融数据并进行预测。此外，AlphaFin数据集还提供了实时的市场数据和宏观经济新闻，使得LLMs能够更好地应对实时信息的需求。最后，AlphaFin数据集还通过RAG技术，将LLMs与实时金融数据库相结合，以解决LLMs输出中的幻觉问题，并生成实时内容。

使用方法

AlphaFin数据集的使用方法主要分为两个阶段。第一阶段是股票趋势预测，通过结合LLMs和AlphaFin数据集，预测公司股票的未来趋势。这一阶段主要包括知识处理、StockGPT微调和预测后处理等步骤。知识处理阶段利用Prompt模板从相关文档中提取信息，StockGPT微调阶段则通过训练LLMs，使其能够更准确地预测股票趋势，并提供详细的分析和解释。预测后处理阶段则从StockGPT的输出中提取预测结果，并根据预测结果选择上涨股票。第二阶段是金融问答，通过RAG技术，将LLMs与实时金融数据库相结合，以提供更准确和实时的金融分析。这一阶段主要包括向量数据库构建、知识检索、LLMs微调和响应生成等步骤。向量数据库构建阶段利用ChatGPT和RefGPT提取文档中的关键知识，并将其嵌入到向量数据库中。知识检索阶段则根据用户查询，从向量数据库中检索相关知识，以辅助LLMs生成响应。LLMs微调阶段则继续训练LLMs，以提升其在金融问答方面的能力。响应生成阶段则利用Prompt模板和检索到的知识，生成LLMs的响应。

背景与挑战

背景概述

AlphaFin数据集的创建旨在解决金融分析领域中的两个关键问题：股票趋势预测和相应的财务问答。目前，机器学习和深度学习算法在股票趋势预测方面取得了显著进展，但这些方法缺乏可解释性和推理过程，无法为预测提供理由，也无法整合诸如财务新闻或报告之类的文本信息。与此同时，大型语言模型在文本理解和生成方面具有显著能力，但由于缺乏高质量的金融训练数据集和与实时知识的有限整合，LLMs仍然存在幻觉，无法跟上最新信息。为了应对这些挑战，AlphaFin数据集结合了传统研究数据集、实时财务数据和手写思维链（CoT）数据，对训练LLMs以完成金融分析产生了积极影响。

当前挑战

AlphaFin数据集面临的挑战包括：1)领域问题的挑战，即如何有效地进行股票趋势预测和财务问答；2)构建过程中的挑战，包括整合多种类型的数据源，以及确保LLMs的输出不出现幻觉并能提供实时内容。为了解决这些挑战，AlphaFin数据集采用了检索增强生成（RAG）技术，并通过AlphaFin数据集对Stock-Chain框架进行了微调。实验结果表明，Stock-Chain在股票趋势预测方面具有最先进的准确性和超过30%的年化收益率（ARR），同时还能在财务问答中提供全面的分析，从而增强投资者在决策过程中的信心，为其投资选择提供坚实的基础。

常用场景

经典使用场景

AlphaFin数据集在金融领域中的经典应用场景是将大型语言模型（LLMs）应用于股票趋势预测和财务问答。通过结合传统研究数据集、实时金融数据以及手工编写的思维链（CoT）数据，AlphaFin数据集有效地解决了传统机器学习和深度学习算法在解释性和推理过程中的不足。此外，AlphaFin数据集还通过检索增强生成（RAG）技术，将实时市场数据与宏观经济新闻整合，为投资者提供准确的股票分析和决策支持。

解决学术问题

AlphaFin数据集解决了大型语言模型在金融分析中存在的两个主要问题：一是缺乏解释性和推理过程，二是无法集成文本信息。通过提供高质量的金融训练数据集和实时知识，AlphaFin数据集提高了LLMs在金融分析中的性能。此外，AlphaFin数据集还通过RAG技术解决了LLMs输出中的幻觉现象，使其能够生成实时内容，从而更好地满足金融领域的需求。

衍生相关工作

AlphaFin数据集衍生了多个相关工作，包括Stock-Chain框架和StockGPT模型。Stock-Chain框架是一个集成了RAG技术的金融分析框架，能够提供准确的股票趋势预测和财务问答。StockGPT模型是基于AlphaFin数据集进行微调的LLMs，能够生成高质量的股票分析和问答内容。此外，AlphaFin数据集还为其他金融领域的研究提供了重要的数据支持，推动了金融分析技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集