NASDAQ-News-Multi-LLM-Scores
收藏NASDAQ News Multi-LLM Scores 数据集概述
数据集基本信息
- 数据集名称: NASDAQ News Multi-LLM Scores
- 数据量: 127,176 条金融新闻文章
- 语言: 英语
- 主要任务: 文本分类(情感分析与风险评估)
- 领域标签: 金融、情感分析、风险评估、LLM评分、多模型、纳斯达克、股票市场、新闻、强化学习
- 许可协议: CC BY-NC 4.0(仅限非商业用途)
- 数据规模: 100K < n < 1M
核心内容
该数据集对来自 FNSPID/FinRL_DeepSeek 的相同新闻文章,使用 11 个先进的大语言模型进行了重新评分,用于情感和风险评估。它支持在相同文章上直接进行跨模型的金融情感分析比较。
关键特性
- 11 个评分模型: Claude Opus 4.5, Claude Sonnet 4.5, Claude Haiku 4.5, GPT-5, o3, o4-mini, GPT-4.1, GPT-4.1-mini, GPT-4.1-nano, GPT-5-mini, GPT-5.4-nano
- 60 个评分列: 涵盖不同模型、推理努力水平和输入组合的 30 个情感评分列和 30 个风险评分列
- 26 种摘要变体: 包括 GPT-5 和 GPT-5-mini 在 4 种推理水平 × 3 种详细程度下的摘要,以及 o3 生成的摘要
- 支持直接比较: 相同文章,不同模型评分
- 努力水平比较: 分析推理努力水平(高/中/低/最小)对评分的影响
- 摘要输入比较: 分析输入摘要的质量对下游评分的影响
数据集结构
| 文件 | 大小 | 描述 |
|---|---|---|
scores.parquet |
12 MB | 所有 60 个评分列 + 文章元数据 |
summaries.parquet |
329 MB | 文章文本 + 用于评分的核心摘要 |
summaries_gpt5_grid.parquet |
323 MB | GPT-5 摘要变体(4 种推理水平 × 3 种详细程度) |
summaries_gpt5mini_grid.parquet |
320 MB | GPT-5-mini 摘要变体(4 种推理水平 × 3 种详细程度) |
评分列详情
所有评分均为 1-5 的整数标度(1 = 最负面/风险最高,5 = 最正面/风险最低)。
元数据列
Date: 发布日期 (YYYY-MM-DD)Article_title: 文章标题Stock_symbol: 股票代码Url: 来源 URLPublisher: 新闻发布商Author: 文章作者
主要评分列类别
- 全文评分 (61% 覆盖率): 包括
sentiment_o3_high_fulltext,risk_o3_medium_fulltext,sentiment_o4mini_high_fulltext,risk_o4mini_medium_fulltext。 - Claude 模型评分 (基于 GPT-5 摘要,61% 覆盖率): 包括
sentiment_opus_gpt5sum,risk_opus_gpt5sum等。 - GPT-5 评分 (4 种努力水平 × 2 种摘要来源,61% 覆盖率): 包括
{s|r}_gpt5_{high|medium|low|minimal}_gpt5sum和{s|r}_gpt5_{high|medium|low|minimal}_o3sum。 - o3 评分 (3 种努力水平 × o3 摘要 + GPT-5 摘要,61% 覆盖率): 包括
{s|r}_o3_{high|medium|low}_o3sum,{s|r}_o3_high_gpt5sum。 - o4-mini 评分 (3 种努力水平 × o3 摘要,61% 覆盖率): 包括
{s|r}_o4mini_{high|medium|low}_o3sum。 - GPT-4.1 系列评分 (61% 覆盖率): 包括
{s|r}_gpt41_o3sum,{s|r}_gpt41mini_gpt5sum_R{x}_V{y},{s|r}_gpt41mini_o3sum,{s|r}_gpt41nano_o3sum。 - GPT-5-mini 评分 (61% 覆盖率): 包括
sentiment_gpt5mini_high_gpt5sum,risk_gpt5mini_high_gpt5sum。 - GPT-5.4-nano 评分 (仅标题,100% 覆盖率): 包括
sentiment_nano_title,risk_nano_title。
摘要文件详情
summaries.parquet
包含用于评分的核心摘要,覆盖率 61%。
Article: 原始文本Lsa_summary: LSA 算法摘要Luhn_summary: Luhn 算法摘要Textrank_summary: TextRank 摘要Lexrank_summary: LexRank 摘要gpt_5_summary: GPT-5 生成摘要 (推理=高,详细程度=高)o3_summary: o3 生成摘要
summaries_gpt5_grid.parquet
包含 GPT-5 在 4 种推理水平 × 3 种详细程度下生成的 12 种摘要变体,列名格式为 gpt5_R{reasoning}_V{verbosity}。
summaries_gpt5mini_grid.parquet
包含 GPT-5-mini 在相同 4×3 结构下生成的摘要变体,列名格式为 gpt5mini_R{reasoning}_V{verbosity}。
数据覆盖率
- 文章总数: 127,176 条 (涵盖 89 个纳斯达克股票代码,2009–2024 年)
- 具有 LLM 摘要和基于摘要评分的文章: 61.2% (77,871 条,即包含文本内容的文章)
- GPT-5.4-nano 评分覆盖率: 100% (仅需标题,无需文章正文)
- 缺少文章内容的行: 38.8% (导致所有基于摘要的评分为 NaN)
分析要点(基于数据集内分析)
- 跨模型相关性: 使用相同摘要输入的模型形成高相关性集群。仅使用标题的 Nano 模型是例外。
- 评分分布: 每个模型都有独特的评分倾向。Nano 最保守(60.8% 中性),o3 观点最鲜明(37.1% 中性)。
- 努力水平影响: 更高的推理努力水平会产生有意义的评分差异。相邻水平差异约 12%,高与最小水平差异 28%。
- 摘要来源影响: 从 GPT-5 摘要切换到 o3 摘要会改变 17–22% 的评分,其中最小努力水平的评分最敏感。
- 强化学习交易结果:
- GPT-5 高 vs 低努力水平: 相同文章上的分歧率为 16.6%;高 vs 最小水平: 28.0%。
- GPT-5 摘要 vs o3 摘要: 18.2% 的分歧率。
- 最佳单模型夏普比率: 使用 GPT-5-mini 高评分训练的 PPO 代理在纳斯达克回测(2019-2023)中实现了夏普比率 1.032。
- 多种子验证(5 种子 × 4 算法): PPO 最稳健(0.777±0.098),SAC 均值最高(0.780±0.047)。
引用信息
本数据集
bibtex @dataset{hyl2026nasdaq_multi_llm, title={NASDAQ News Multi-LLM Scores}, author={HYL}, year={2026}, url={https://huggingface.co/datasets/HYL/NASDAQ-News-Multi-LLM-Scores}, note={Multi-LLM re-scoring of FNSPID financial news articles} }
原始数据源
bibtex @misc{dong2024fnspid, title={FNSPID: A Comprehensive Financial News Dataset in Time Series}, author={Zihan Dong and Xinyu Fan and Zhiyuan Peng}, year={2024}, eprint={2402.06698}, archivePrefix={arXiv} }
@misc{staf2025finrl, title={Enhancing Financial Trading with LLM-Augmented Sentiment Analysis}, author={Ben Staf}, year={2025}, eprint={2502.07393}, archivePrefix={arXiv} }
相关链接
- 源代码: https://github.com/HYL-Dave/ArkScope
- 原始数据集: https://huggingface.co/datasets/Zihan1004/FNSPID
- FinRL_DeepSeek: https://arxiv.org/abs/2502.07393




