NIFTY Financial News Headlines Dataset

Name: NIFTY Financial News Headlines Dataset
Creator: 多伦多大学计算机科学系
Published: 2024-05-16 09:09:33
License: 暂无描述

arXiv2024-05-16 更新2024-07-23 收录

下载链接：

https://huggingface.co/datasets/raeidsaqur/NIFTY

下载链接

链接失效反馈

官方服务：

资源简介：

NIFTY Financial News Headlines Dataset是由多伦多大学计算机科学系的研究团队开发的一个大型语言模型和偏好调整数据集，旨在推动金融市场预测的研究。该数据集包含两个版本：NIFTY-LM（DLM）和NIFTY-RL（DRL），分别针对监督微调（SFT）和强化学习（RL）方法。数据集涵盖了过去十年（2010至2023年）的新闻标题，包括主题标签、相关过滤和去重后的金融市场新闻，是目前为止最全面的金融研究数据集。该数据集的应用领域包括股票价格变动预测和语言模型嵌入在信息获取中的作用，旨在解决金融市场预测中的复杂问题。

The NIFTY Financial News Headlines Dataset was developed by a research team from the Department of Computer Science at the University of Toronto as a large language model and preference tuning dataset intended to advance research on financial market forecasting. The dataset comprises two variants: NIFTY-LM (DLM) and NIFTY-RL (DRL), which are respectively designed for supervised fine-tuning (SFT) and reinforcement learning (RL) methods. Covering financial market news headlines from 2010 to 2023 (the past decade), the dataset includes hashtag-tagged, filtered and deduplicated financial news entries, making it the most comprehensive financial research dataset to date. Its application areas include stock price movement prediction and the role of language model embeddings in information acquisition, with the goal of resolving complex challenges in financial market forecasting.

提供机构：

多伦多大学计算机科学系

创建时间：

2024-05-16

原始信息汇总

NIFTY 数据集概述

基本信息

许可证: MIT
标签:
- nifty
- stock-movement
- news-and-events
- RLMF
任务类别:
- multiple-choice
- time-series-forecasting
- document-question-answering
任务ID:
- topic-classification
- semantic-similarity-classification
- multiple-choice-qa
- univariate-time-series-forecasting
- document-question-answering
语言: 英语
数据集名称: nifty
数据规模: 1K<n<100k

配置信息

配置名称: nifty-lm
数据文件:
- 训练集: train.jsonl
- 测试集: test.jsonl
- 验证集: valid.jsonl
默认配置: 是

数据集结构

数据集分割: 训练集、验证集、测试集
文件格式: jsonl
单行数据格式: json { "id": "nifty_1795", "date": "2019-02-14", "context": "date,open,high,low...", "news": "Amazon May Still See Benefits From ...", "conversations": [ { "role": "user", "value": "Project the $SPY indexs ... Answer:" }, { "role": "assistant", "value": "Rise 0.0109" } ], "label": "Rise", "pct_change": 0.0109 }
数据集统计:
- 总样本数: 2111
- 日期范围: 2010-01-06 至 2020-09-21
- 各分割样本数:
  
  分割样本数日期范围
  
  训练集 1477 2010-01-06 至 2017-06-27
  
  验证集 317 2017-06-28 至 2019-02-12
  
  测试集 317 2019-02-13 至 2020-09-21

搜集汇总

数据集介绍

构建方式

在金融预测领域，新闻标题常被视为市场动态的抽象代理。NIFTY Financial News Headlines Dataset的构建始于对多个新闻源的高质量金融新闻标题的广泛采集，通过互联网爬虫技术获取原始数据。随后，采用文本主题建模模型对标题进行筛选和排序，以识别与金融主题相关的条目。构建流程进一步包括去重、过滤和每日排名处理，确保数据质量。为适配现代大语言模型的上下文长度限制，团队通过相似性搜索和TF-IDF评分机制，剔除非金融相关标题，并对超长提示进行截断，最终形成包含元数据、市场指数和去重新闻标题的精选数据集。

特点

该数据集的核心特点在于其双版本设计，分别针对不同的大语言模型应用场景。NIFTY-LM版本专注于监督微调，提供包含提示、市场上下文和新闻标题的单轮对话查询，适用于自回归因果语言建模目标。NIFTY-RL版本则专门为对齐方法（如基于人类反馈的强化学习）设计，格式化为偏好数据集，包含选择和拒绝标签，以支持拒绝采样和奖励建模。数据集覆盖2010年至2023年的新闻标题，具有全面的时间跨度和高质量的数据标注，包括市场运动标签和百分比变化信息，为金融预测研究提供了丰富且结构化的资源。

使用方法

在应用层面，NIFTY数据集主要用于金融市场的股票价格运动预测任务。研究人员可利用NIFTY-LM进行大语言模型的监督微调，通过输入市场历史数据和新闻标题，训练模型预测SPY指数的上升、下降或中性运动。NIFTY-RL则适用于对齐训练，通过奖励模型和强化学习技术，优化大语言模型的指令跟随能力。此外，数据集还可用于研究嵌入表示在信息获取中的作用，探索模型规模对语义聚类和信息增益的影响。数据集以JSONL格式提供，便于集成到现代机器学习框架中，支持从基础预测到高级对齐方法的多样化实验。

背景与挑战

背景概述

在金融科技与自然语言处理交叉领域，NIFTY Financial News Headlines Dataset由多伦多大学、圭尔夫大学及达尔豪斯大学的研究团队于2024年联合构建，旨在推动基于大语言模型的金融市场预测研究。该数据集涵盖2010年至2023年长达十余年的金融新闻标题，并整合市场指数与元数据，通过精心筛选与去重处理，为监督微调与强化学习对齐等前沿方法提供结构化支持。其核心研究问题聚焦于利用新闻标题作为市场动因的抽象代理，以部分可观测马尔可夫决策过程框架探索金融时序预测的泛化能力，为量化金融与人工智能融合研究设立了高质量基准。

当前挑战

该数据集致力于应对金融市场预测中两大核心挑战：其一，在领域问题层面，金融市场的非平稳性、高噪声与隐藏变量导致传统机器学习模型难以适应分布偏移，而NIFTY通过新闻语义与市场数据的多模态关联，试图缓解时序预测中的协变量漂移问题；其二，在构建过程中，研究团队需克服新闻源异构性、非金融内容过滤、标题去重与语义排名等难题，同时兼顾大语言模型上下文长度限制，通过TF-IDF加权与相似度阈值设计实现信息密度优化，确保数据质量与模型兼容性之间的平衡。

常用场景

经典使用场景

在金融科技与自然语言处理的交叉领域，NIFTY数据集为基于大语言模型的金融市场预测研究提供了标准化的实验平台。该数据集最经典的使用场景是股票价格运动预测任务，研究者通过监督微调或强化学习对齐方法，训练模型分析历史市场数据与去重后的金融新闻标题，从而预测标准普尔500指数ETF（$SPY）的日度涨跌方向。这一场景深刻体现了将非结构化文本信息转化为结构化市场信号的学术探索，为量化金融领域的算法交易策略开发奠定了数据基础。

衍生相关工作

围绕NIFTY数据集衍生出一系列重要的学术探索，例如Flare基准测试框架将其与CIKM、StockNet等现有数据集整合，建立了统一的金融大语言模型评估体系。相关研究深入探讨了模型规模与嵌入丰富度之间的关联，验证了参数更大的语言模型能产生信息增益更高的语义表示。此外，该数据集还催生了关于金融机制转换环境下大语言模型适应性的研究，推动了基于信念状态更新的部分可观测马尔可夫决策过程建模方法在量化金融中的创新应用。

数据集最近研究

分割	样本数	日期范围
训练集	1477	2010-01-06 至 2017-06-27
验证集	317	2017-06-28 至 2019-02-12
测试集	317	2019-02-13 至 2020-09-21