NASDAQ-News-Multi-LLM-Scores

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/HYL/NASDAQ-News-Multi-LLM-Scores

下载链接

链接失效反馈

官方服务：

资源简介：

NASDAQ News Multi-LLM Scores 数据集包含 127,176 篇金融新闻文章，由 11 种先进的 LLM 模型进行情感和风险评估。该数据集基于 FNSPID 和 FinRL_DeepSeek 数据集中的相同文章，通过多种 LLM 模型在不同推理努力级别和摘要输入下重新评分，旨在实现对相同文章进行跨模型金融情感分析的直接比较。数据集主要特点包括：11 种评分模型（如 Claude Opus 4.5、GPT-5 等）、60 个评分列（30 个情感评分 + 30 个风险评估）、26 种摘要变体（GPT-5 和 GPT-5-mini 在不同推理和详细程度组合下的摘要）以及文章元数据（发布日期、文章标题、股票代码等）。数据集结构包含四个主要文件：scores.parquet（所有评分列和元数据）、summaries.parquet（文章文本和核心摘要）、summaries_gpt5_grid.parquet 和 summaries_gpt5mini_grid.parquet（GPT-5 和 GPT-5-mini 摘要变体）。数据集适用于金融情感分析、风险评估、LLM 评分比较等任务，采用 CC BY-NC 4.0 许可，仅限非商业用途。

The NASDAQ News Multi-LLM Scores Dataset contains 127,176 financial news articles, which were evaluated for sentiment and risk by 11 state-of-the-art LLM models. Built upon the identical articles sourced from the FNSPID and FinRL_DeepSeek datasets, this dataset re-scores the articles using multiple LLM models across varying inference effort levels and summary input conditions, aiming to enable direct cross-model comparative financial sentiment analysis on the same corpus. Key features of the dataset include: 11 scoring models (e.g., Claude Opus 4.5, GPT-5, etc.), 60 scoring columns (30 sentiment scores plus 30 risk assessment scores), 26 summary variants (summaries generated by GPT-5 and GPT-5-mini under different combinations of inference effort and detail levels), as well as article metadata such as publication date, article title, ticker symbols, and other relevant information. The dataset comprises four primary files: scores.parquet (housing all scoring columns and metadata), summaries.parquet (containing original article text and core summaries), summaries_gpt5_grid.parquet and summaries_gpt5mini_grid.parquet (storing the summary variants generated by GPT-5 and GPT-5-mini respectively). This dataset supports downstream tasks including financial sentiment analysis, risk assessment, cross-model LLM scoring comparison, and other related research work. It is released under the CC BY-NC 4.0 license for non-commercial use only.

创建时间：

2026-04-14

原始信息汇总

NASDAQ News Multi-LLM Scores 数据集概述

数据集基本信息

数据集名称: NASDAQ News Multi-LLM Scores
数据量: 127,176 条金融新闻文章
语言: 英语
主要任务: 文本分类（情感分析与风险评估）
领域标签: 金融、情感分析、风险评估、LLM评分、多模型、纳斯达克、股票市场、新闻、强化学习
许可协议: CC BY-NC 4.0（仅限非商业用途）
数据规模: 100K < n < 1M

核心内容

该数据集对来自 FNSPID/FinRL_DeepSeek 的相同新闻文章，使用 11 个先进的大语言模型进行了重新评分，用于情感和风险评估。它支持在相同文章上直接进行跨模型的金融情感分析比较。

关键特性

11 个评分模型: Claude Opus 4.5, Claude Sonnet 4.5, Claude Haiku 4.5, GPT-5, o3, o4-mini, GPT-4.1, GPT-4.1-mini, GPT-4.1-nano, GPT-5-mini, GPT-5.4-nano
60 个评分列: 涵盖不同模型、推理努力水平和输入组合的 30 个情感评分列和 30 个风险评分列
26 种摘要变体: 包括 GPT-5 和 GPT-5-mini 在 4 种推理水平 × 3 种详细程度下的摘要，以及 o3 生成的摘要
支持直接比较: 相同文章，不同模型评分
努力水平比较: 分析推理努力水平（高/中/低/最小）对评分的影响
摘要输入比较: 分析输入摘要的质量对下游评分的影响

数据集结构

文件	大小	描述
`scores.parquet`	12 MB	所有 60 个评分列 + 文章元数据
`summaries.parquet`	329 MB	文章文本 + 用于评分的核心摘要
`summaries_gpt5_grid.parquet`	323 MB	GPT-5 摘要变体（4 种推理水平 × 3 种详细程度）
`summaries_gpt5mini_grid.parquet`	320 MB	GPT-5-mini 摘要变体（4 种推理水平 × 3 种详细程度）

评分列详情

所有评分均为 1-5 的整数标度（1 = 最负面/风险最高，5 = 最正面/风险最低）。

元数据列

Date: 发布日期 (YYYY-MM-DD)
Article_title: 文章标题
Stock_symbol: 股票代码
Url: 来源 URL
Publisher: 新闻发布商
Author: 文章作者

主要评分列类别

全文评分 (61% 覆盖率): 包括 sentiment_o3_high_fulltext, risk_o3_medium_fulltext, sentiment_o4mini_high_fulltext, risk_o4mini_medium_fulltext。
Claude 模型评分 (基于 GPT-5 摘要，61% 覆盖率): 包括 sentiment_opus_gpt5sum, risk_opus_gpt5sum 等。
GPT-5 评分 (4 种努力水平 × 2 种摘要来源，61% 覆盖率): 包括 {s|r}_gpt5_{high|medium|low|minimal}_gpt5sum 和 {s|r}_gpt5_{high|medium|low|minimal}_o3sum。
o3 评分 (3 种努力水平 × o3 摘要 + GPT-5 摘要，61% 覆盖率): 包括 {s|r}_o3_{high|medium|low}_o3sum, {s|r}_o3_high_gpt5sum。
o4-mini 评分 (3 种努力水平 × o3 摘要，61% 覆盖率): 包括 {s|r}_o4mini_{high|medium|low}_o3sum。
GPT-4.1 系列评分 (61% 覆盖率): 包括 {s|r}_gpt41_o3sum, {s|r}_gpt41mini_gpt5sum_R{x}_V{y}, {s|r}_gpt41mini_o3sum, {s|r}_gpt41nano_o3sum。
GPT-5-mini 评分 (61% 覆盖率): 包括 sentiment_gpt5mini_high_gpt5sum, risk_gpt5mini_high_gpt5sum。
GPT-5.4-nano 评分 (仅标题，100% 覆盖率): 包括 sentiment_nano_title, risk_nano_title。

摘要文件详情

summaries.parquet

包含用于评分的核心摘要，覆盖率 61%。

Article: 原始文本
Lsa_summary: LSA 算法摘要
Luhn_summary: Luhn 算法摘要
Textrank_summary: TextRank 摘要
Lexrank_summary: LexRank 摘要
gpt_5_summary: GPT-5 生成摘要 (推理=高，详细程度=高)
o3_summary: o3 生成摘要

summaries_gpt5_grid.parquet

包含 GPT-5 在 4 种推理水平 × 3 种详细程度下生成的 12 种摘要变体，列名格式为 gpt5_R{reasoning}_V{verbosity}。

summaries_gpt5mini_grid.parquet

包含 GPT-5-mini 在相同 4×3 结构下生成的摘要变体，列名格式为 gpt5mini_R{reasoning}_V{verbosity}。

数据覆盖率

文章总数: 127,176 条 (涵盖 89 个纳斯达克股票代码，2009–2024 年)
具有 LLM 摘要和基于摘要评分的文章: 61.2% (77,871 条，即包含文本内容的文章)
GPT-5.4-nano 评分覆盖率: 100% (仅需标题，无需文章正文)
缺少文章内容的行: 38.8% (导致所有基于摘要的评分为 NaN)

分析要点（基于数据集内分析）

跨模型相关性: 使用相同摘要输入的模型形成高相关性集群。仅使用标题的 Nano 模型是例外。
评分分布: 每个模型都有独特的评分倾向。Nano 最保守（60.8% 中性），o3 观点最鲜明（37.1% 中性）。
努力水平影响: 更高的推理努力水平会产生有意义的评分差异。相邻水平差异约 12%，高与最小水平差异 28%。
摘要来源影响: 从 GPT-5 摘要切换到 o3 摘要会改变 17–22% 的评分，其中最小努力水平的评分最敏感。
强化学习交易结果:
- GPT-5 高 vs 低努力水平: 相同文章上的分歧率为 16.6%；高 vs 最小水平: 28.0%。
- GPT-5 摘要 vs o3 摘要: 18.2% 的分歧率。
- 最佳单模型夏普比率: 使用 GPT-5-mini 高评分训练的 PPO 代理在纳斯达克回测（2019-2023）中实现了夏普比率 1.032。
- 多种子验证（5 种子 × 4 算法）: PPO 最稳健（0.777±0.098），SAC 均值最高（0.780±0.047）。

引用信息

本数据集

bibtex @dataset{hyl2026nasdaq_multi_llm, title={NASDAQ News Multi-LLM Scores}, author={HYL}, year={2026}, url={https://huggingface.co/datasets/HYL/NASDAQ-News-Multi-LLM-Scores}, note={Multi-LLM re-scoring of FNSPID financial news articles} }

原始数据源

bibtex @misc{dong2024fnspid, title={FNSPID: A Comprehensive Financial News Dataset in Time Series}, author={Zihan Dong and Xinyu Fan and Zhiyuan Peng}, year={2024}, eprint={2402.06698}, archivePrefix={arXiv} }

@misc{staf2025finrl, title={Enhancing Financial Trading with LLM-Augmented Sentiment Analysis}, author={Ben Staf}, year={2025}, eprint={2502.07393}, archivePrefix={arXiv} }

相关链接

源代码: https://github.com/HYL-Dave/ArkScope
原始数据集: https://huggingface.co/datasets/Zihan1004/FNSPID
FinRL_DeepSeek: https://arxiv.org/abs/2502.07393

搜集汇总

数据集介绍

构建方式

在金融文本分析领域，数据质量直接影响模型性能的可靠性。本数据集基于公开的FNSPID金融新闻语料，通过创新的两阶段流水线构建而成。首先，针对原始长文本处理成本高昂与抽取式摘要语义丢失的问题，研究团队采用GPT-5与o3等先进模型生成高质量的抽象式摘要，完整保留了影响情感判断的关键上下文。随后，利用这些摘要作为统一输入，系统性地调用包括Claude Opus、GPT-5、o3在内的11个前沿大语言模型，在不同推理努力级别下对每篇新闻进行情感与风险评估，最终形成了涵盖60个评分维度的结构化数据集。

特点

该数据集的核心特征在于其系统性的多模型对比框架。它收录了超过12万篇纳斯达克相关新闻，并针对其中61.2%具备完整文本的文章，提供了由11个不同架构与规模的LLM生成的平行评分。数据集精心设计了变量控制实验，不仅包含模型间的横向比较，还深入探究了推理努力级别（高、中、低、最小）与输入摘要质量（GPT-5摘要、o3摘要、全文、标题）对最终评分的影响。这种设计使得研究者能够在完全相同的文章基础上，定量分析不同模型在金融情感分析任务上的表现差异、稳定性与敏感性，为模型评估与选择提供了前所未有的细致视角。

使用方法

研究者可通过加载数据集中的Parquet文件快速开展分析。核心评分数据存储于`scores.parquet`，仅12MB，便于高效读取与计算。用户可提取特定模型的评分列进行描述性统计，或计算多个模型评分间的相关系数以考察一致性。若需结合原文或摘要进行分析，可将评分文件与`summaries.parquet`等摘要文件通过日期、标题和股票代码进行关联合并。数据集支持多种研究路径，例如比较不同努力级别下同一模型的评分分布，探究摘要源切换导致的评分变化，或利用多模型评分训练强化学习交易智能体，评估不同信号源对投资策略绩效的影响。

背景与挑战

背景概述

在金融科技与自然语言处理交叉领域，量化金融新闻的情感与风险评估是驱动算法交易策略的核心环节。NASDAQ-News-Multi-LLM-Scores数据集由研究者HYL于2026年构建，其核心研究问题聚焦于探究不同大语言模型在金融文本情感分析任务上的表现差异。该数据集基于FNSPID金融新闻语料，通过集成Claude、GPT系列等11种前沿大语言模型，对超过12万篇新闻进行了多维度评分。这一工作不仅为量化金融研究提供了标准化的大模型评测基准，也深化了业界对模型推理能力、摘要质量与评分稳定性之间关联的理解，推动了基于大语言模型的金融风险感知技术向更精细化、可解释的方向演进。

当前挑战

该数据集旨在系统评估大语言模型在金融情感与风险评估任务中的表现，其面临的核心挑战在于金融文本的语义复杂性与模型评分的一致性难题。金融新闻常包含隐含情绪、专业术语与市场语境，传统抽取式摘要易丢失关键情感线索，导致评分失真。构建过程中，研究者需克服全文本评分的高昂计算成本，通过生成高质量抽象摘要以平衡效率与语义保真度。同时，协调多种模型在不同推理努力水平与摘要输入下的评分标准，确保跨模型比较的公平性与可复现性，亦是数据集构建的关键技术障碍。

常用场景

经典使用场景

在金融量化分析领域，NASDAQ-News-Multi-LLM-Scores数据集为研究者提供了跨模型情感与风险评估的统一基准。该数据集通过11种前沿大语言模型对12.7万篇金融新闻进行标准化评分，使得不同模型在相同文章上的表现得以直接比较。经典应用场景包括利用这些评分训练强化学习交易代理，优化投资策略的生成与回测，从而在模拟市场环境中验证模型预测的稳健性与收益潜力。

解决学术问题

该数据集有效解决了金融文本分析中模型评估标准不一的核心难题。通过提供多模型、多推理努力级别下的并行评分，它使得研究者能够系统探究摘要质量、推理努力对情感评分的影响机制。这为理解大语言模型在复杂语义任务中的表现差异提供了实证基础，推动了金融自然语言处理领域向更精细、可解释的方向发展。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于多模型评分融合的强化学习交易策略研究，如使用PPO算法优化投资组合。同时，一系列分析探讨了推理努力与摘要源对评分一致性的影响，为模型选择与超参数调优提供了指导。这些工作进一步推动了金融情感分析在可复现性与跨模型比较方面的学术进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集