RETuning

Hugging Face2025-11-23 更新2025-11-24 收录

下载链接：

https://huggingface.co/datasets/linxy/RETuning

下载链接

链接失效反馈

官方服务：

资源简介：

RETuning数据集是一个为训练、微调、强化学习以及评估大型语言模型在股票走势预测任务上的能力而设计的全面资源。它整合了金融文本数据、历史股价时间序列以及不同难度级别的结构化预测任务，使得对LLM在金融预测方面的能力进行严格研究成为可能。

创建时间：

2025-11-13

原始信息汇总

RETuning数据集概述

数据集基本信息

许可证: MIT
任务类别: 文本分类
语言: 中文
标签: 金融
数据规模: 10万<n<100万

数据集描述

RETuning数据集是一个综合性资源，专为训练、微调、强化学习和评估大型语言模型在股票走势预测任务上的表现而设计。该数据集整合了金融文本数据、历史价格时间序列和具有不同难度级别的结构化预测任务，支持对大型语言模型在金融预测能力方面的严格研究。

文件结构与详细信息

文件名	描述	格式
Fin-2024-December.parquet	2024年12月的金融文本数据（新闻、报告等）	Parquet
Fin-2024-Jan2Nov-difficulty-middle.parquet	2024年1月至11月的金融文本数据，针对中等难度股票走势预测任务整理	Parquet
Fin2024_200k.parquet	2024年大规模金融文本语料库（20万条条目）	Parquet
cold_start.jsonl	冷启动微调阶段数据，包含结构化提示和目标	JSONL
price20240101-20250401.csv	2024年1月1日至2025年4月1日的历史股价数据	CSV
price20250101-20250831.csv	2025年1月1日至2025年8月31日的历史股价数据	CSV
train_10000.jsonl	包含1万条条目的训练数据，包括股票走势预测的提示和标签	JSONL

数据加载方式

使用datasets库加载数据集： python from datasets import load_dataset dataset = load_dataset("linxy/RETuning") cold_start = load_dataset("linxy/RETuning", data_files="cold_start.jsonl")

引用信息

如使用本数据集，请引用： bibtex @article{xueyuan2025RETuning, title = {RETuning: Upgrading Inference-Time Scaling for Stock Movement Prediction with Large Language Models}, author = {Xueyuan Lin and Cehao Yang and Ye Ma and Ming Li and Rongjunchen Zhang and Yang Ni and Xiaojun Wu and Chengjin Xu and Jian Guo and Hui Xiong}, year = {2025}, journal = {arXiv preprint arXiv: 2510.21604} }

搜集汇总

数据集介绍

构建方式

在金融科技领域，RETuning数据集的构建融合了多源异构数据，通过整合2024年全年的财经新闻、研究报告等文本数据与同期股价时间序列，构建了规模达20万条记录的平行语料库。数据采集过程严格遵循时序连续性原则，特别设计了包含冷启动训练集在内的多层次任务结构，所有原始数据均经过标准化清洗和跨模态对齐处理，形成可直接用于大语言模型训练的规范化格式。

特点

该数据集最显著的特征在于其多维度的任务复杂度设计，既包含面向初学者的基础预测任务，也设置了需要深度推理的中等难度挑战。数据架构上实现了文本数据与数值时序数据的有机统一，通过精心设计的结构化提示模板，有效支撑从监督微调到强化学习的全流程训练需求。其特有的冷启动模块更为研究大语言模型在金融领域的适应能力提供了专门实验场景。

使用方法

研究人员可通过HuggingFace生态系统便捷加载该数据集，使用标准datasets库接口即可访问全部或指定子集。对于特定研究需求，支持按文件粒度单独调用冷启动训练集或价格时序数据，这种模块化设计使得用户能灵活构建训练流水线。数据集采用Parquet和JSONL等高效存储格式，确保在大规模训练场景下仍能保持优异的数据读取性能。

背景与挑战

背景概述

随着人工智能在金融量化分析领域的深入应用，RETuning数据集于2025年由学术团队构建，聚焦于大语言模型在股价预测任务中的推理能力优化。该数据集整合了新闻文本、历史行情与多难度预测任务，通过结构化提示与时间序列数据，为大模型在金融时序分析领域的适应性研究提供了重要基准。其创新性地引入推理时缩放机制，显著推动了金融自然语言处理与量化投资策略的交叉研究进展。

当前挑战

在金融时序预测领域，股价波动受市场噪声与非线性因素影响，传统模型难以捕捉文本语义与价格趋势的隐含关联。数据集构建过程中需解决多源异构数据的对齐难题，包括新闻时效性验证、价格数据频率统一以及文本标签的时序一致性维护。此外，冷启动场景下的模型泛化能力优化，要求训练数据兼具金融专业知识覆盖与对抗市场波动的鲁棒性特征。

常用场景

经典使用场景

在金融科技领域，RETuning数据集为股票走势预测研究提供了关键支持。该数据集整合了大规模金融文本与历史价格时序数据，通过多难度级别的结构化预测任务，为大语言模型在金融时序分析中的微调与推理优化奠定了坚实基础。其核心应用聚焦于利用新闻资讯、财报公告等非结构化文本，结合量化特征构建端到端的市场动向分类模型。

衍生相关工作

该数据集已催生系列创新研究，包括基于推理时缩放技术的动态参数优化方法，以及融合注意力机制的跨周期预测架构。相关工作进一步拓展至多任务学习框架，通过联合训练新闻情感分析与价格波动回归任务，构建了更稳健的金融预训练模型体系，持续推动着计算金融学的前沿探索。

数据集最近研究