Astock

Name: Astock
Creator: 澳大利亚机器学习研究所，阿德莱德大学
Published: 2022-06-14 13:55:23
License: 暂无描述

arXiv2022-06-14 更新2024-06-21 收录

下载链接：

https://github.com/JinanZou/Astock

下载链接

链接失效反馈

官方服务：

资源简介：

Astock数据集是由澳大利亚机器学习研究所和阿德莱德大学共同创建的，专注于中国A股市场的股票预测。该数据集包含40,963条来自Tushare的官方授权金融新闻，每条新闻都标注了三种交易动作（长、保持、短）。此外，数据集还涵盖了24种股票因子，用于构建更为真实的自动交易系统。Astock数据集的创建旨在通过自然语言处理技术，更准确地预测股票走势并辅助金融决策，特别是在解决股票市场预测中的随机性和参与者行为模式的不确定性问题。

The Astock dataset was developed jointly by the Australian Institute of Machine Learning and the University of Adelaide, focusing on stock prediction in China's A-share market. It contains 40,963 officially authorized financial news articles sourced from Tushare, with each article annotated with three trading actions: long, hold, and short. Additionally, the dataset encompasses 24 stock factors, which are intended to support the construction of more realistic automated trading systems. The dataset was developed with the goal of leveraging natural language processing (NLP) techniques to more accurately predict stock price trends and assist financial decision-making, particularly in addressing the randomness and uncertainty in participant behavior patterns inherent in stock market prediction.

提供机构：

澳大利亚机器学习研究所，阿德莱德大学

创建时间：

2022-06-14

搜集汇总

数据集介绍

构建方式

在金融科技领域，Astock数据集的构建体现了对多源信息融合的深度考量。该数据集整合了来自Tushare平台的40,963条中国A股上市公司新闻，涵盖2018年7月至2021年11月的时间跨度。每条新闻均标注了对应的股票代码、发布时间及新闻摘要，并与分钟级股价数据精确对齐。同时，数据集纳入了24种关键股票因子，如股息收益率、流通市值、市盈率等，这些因子与新闻数据共同构成了多维特征矩阵。数据划分采用分布内与分布外分离策略，前者用于模型训练与验证，后者专门测试模型的泛化能力，从而在贴近真实交易场景下支撑自动化交易算法的开发与评估。

使用方法

该数据集主要支持两大任务：股票走势分类与模拟交易。在股票走势分类中，研究者可利用新闻文本与股票因子，通过语义角色标注池化（SRLP）等技术提取紧凑的事件表示，进而预测股票的上涨、持平或下跌趋势。数据集已按时间划分为训练、验证与测试集，便于模型进行监督学习。对于模拟交易，用户可将分类模型的输出结果输入到配套的交易策略中，通过回测系统评估策略在年化收益率、最大回撤等金融指标上的表现。这种端到端的评估框架，使得算法性能能够直接映射到实际交易盈利能力，为自动化交易系统的研发提供了可靠基准。

背景与挑战

背景概述

在金融科技与自然语言处理交叉领域，股票市场预测一直是极具吸引力的研究方向。Astock数据集由阿德莱德大学澳大利亚机器学习研究所的研究团队于2022年构建，旨在系统化研究基于自然语言处理的股票自动交易算法。该数据集聚焦于中国A股市场，核心研究问题在于如何整合股票特定新闻与多种金融因子，以更贴近真实交易场景的方式预测股价走势。其创新之处在于提供了分钟级价格数据、覆盖3680只股票的新闻及24类股票因子，为量化金融与文本分析融合研究提供了标准化基准，显著推动了该领域从理论模型向实际交易应用的过渡。

当前挑战

Astock数据集致力于解决基于文本的股票价格预测这一复杂问题，其核心挑战在于市场的高度随机性与新闻事件的非线性影响，要求模型不仅能捕捉文本情感，还需融合金融因子以应对多变的市场环境。在构建过程中，研究团队面临多重困难：一是需从海量新闻中精准标注与特定股票相关的事件，并关联分钟级交易数据，确保时序对齐的准确性；二是如何设计合理的标注策略，以区分新闻对股价的差异化影响，避免噪声干扰；三是需整合多源异构数据，包括新闻摘要、股票因子与历史价格，对数据清洗与融合提出了较高要求。这些挑战共同塑造了数据集的构建逻辑与应用边界。

常用场景

经典使用场景

在金融科技与自然语言处理交叉领域，Astock数据集为研究基于新闻文本的股票价格预测提供了标准化实验平台。该数据集整合了特定股票相关的新闻文本与多元化的股票因子，支持分钟级价格数据，使得研究者能够构建更为精细的预测模型。经典使用场景包括训练端到端的自动化交易系统，通过分析新闻事件对个股的即时影响，模拟真实市场环境下的投资决策过程，从而评估不同算法在股票涨跌分类任务上的性能。

解决学术问题

Astock数据集有效解决了以往研究中存在的若干局限性。传统方法往往依赖单一文本特征，忽视了金融因子在投资决策中的关键作用，且评估指标多局限于预测准确率，难以反映实际盈利能力。该数据集通过提供新闻与股票因子的多模态信息，促进了更全面的特征融合研究；同时引入夏普比率、年化收益率等金融相关指标，推动了学术研究向实际交易场景的靠拢，增强了模型的泛化能力与实用性。

实际应用

在实际金融应用中，Astock数据集为量化投资策略的开发与回测提供了重要数据基础。基于该数据集训练的模型可应用于自动化交易系统，实时分析上市公司新闻公告与市场舆情，辅助生成买入、持有或卖出的交易信号。例如，机构投资者可利用此类系统捕捉事件驱动型投资机会，优化投资组合配置，在控制最大回撤的同时提升收益风险比，实现更为稳健的资产增值。

数据集最近研究