summarization-yahoo-stock-finance-article-text

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/vladlen32230/summarization-yahoo-stock-finance-article-text

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个来自Finance Yahoo网站的各种金融股票相关新闻文章摘要数据集，格式为关键子弹点的总结。数据集中的新闻文章与特定股票相关，并且使用了llama3.1-70B摘要模型。

创建时间：

2025-06-22

原始信息汇总

数据集概述

基本信息

名称: Summarization Yahoo stock finance article text
许可证: MIT
语言: 英语 (en)
标签: finance
大小类别: 1K<n<10K
下载大小: 14,141,677 bytes
数据集大小: 25,130,798 bytes

任务类别

文本摘要 (summarization)
文本分类 (text-classification)
文本生成 (text2text-generation)
零样本分类 (zero-shot-classification)
特征提取 (feature-extraction)

数据集结构

特征

ID (int64)
datetime (string)
headline (string)
symbol (string)
url (string)
text (string)
summary (string)

数据划分

训练集 (train)
- 样本数: 3,980
- 大小: 20,137,336 bytes
验证集 (validation)
- 样本数: 498
- 大小: 2,434,253 bytes
测试集 (test)
- 样本数: 498
- 大小: 2,559,209 bytes

数据描述

该数据集包含来自雅虎财经网站的金融股票相关新闻文章的摘要，摘要以关键要点的形式呈现。
使用的摘要模型是 llama3.1-70B。
每条数据包含一个 symbol 字段，表示新闻文章相关的股票代码。

搜集汇总

数据集介绍

构建方式

该数据集聚焦于金融股票领域，通过系统采集雅虎财经网站上的股票相关新闻文章构建而成。其构建过程采用先进的自然语言处理技术，利用llama3.1-70B模型对原始文本进行关键要点式摘要生成。每篇新闻均标注了对应的股票代码、发布时间、标题及原文链接，确保数据的完整性和可追溯性。数据集按照标准机器学习流程划分为训练集、验证集和测试集，为模型开发提供可靠的数据支撑。

特点

作为金融文本分析领域的重要资源，该数据集收录了近5000篇股票新闻及其精炼摘要。其显著特征在于每篇文本均标注了关联的股票代码，为跨文本分析和市场情绪研究提供了关键维度。数据格式规范统一，包含ID、时间戳、标题、原文等结构化字段，便于多角度挖掘分析。摘要部分采用bullet points形式呈现，既保留了核心信息又提升了可读性，特别适合用于金融领域的文本摘要任务评估。

使用方法

该数据集主要服务于金融文本摘要任务的模型训练与评估，研究人员可直接加载标准化的训练/验证/测试集进行端到端实验。基于其丰富的元数据信息，可拓展用于股票市场情绪分析、事件驱动型投资策略研究等跨学科应用。使用时应充分考量金融文本的专业性特点，建议结合股票代码字段进行细分领域分析。数据集的摘要质量已通过大语言模型校验，但仍建议在使用前进行必要的样本抽查以确保符合具体研究需求。

背景与挑战

背景概述

随着金融科技的快速发展，金融新闻文本的自动摘要技术逐渐成为自然语言处理领域的研究热点。Summarization-Yahoo-Stock-Finance-Article-Text数据集应运而生，专注于金融股票新闻的自动摘要任务。该数据集由研究人员基于雅虎财经网站的股票相关新闻构建，涵盖了3980篇训练样本和498篇验证与测试样本，每篇新闻均包含标题、股票代码、原文及由Llama3.1-70B模型生成的要点式摘要。其核心研究问题在于如何从复杂的金融文本中提取关键信息，为投资者和研究人员提供高效的决策支持。该数据集的建立为金融文本摘要领域提供了重要的基准资源，推动了相关算法的发展与应用。

当前挑战

金融新闻文本的自动摘要面临多重挑战。在领域问题方面，金融文本通常包含大量专业术语和复杂句式，如何准确理解并提取关键信息是一大难点；同时，股票市场的动态性要求摘要模型能够及时捕捉新闻中的时效性内容。在构建过程中，数据收集与标注同样存在挑战：金融新闻涉及敏感信息，需确保数据的合法性与隐私保护；此外，由大模型生成的摘要可能存在偏差或错误，如何保证摘要的准确性与可靠性也是构建高质量数据集的关键所在。

常用场景

经典使用场景

在金融文本分析领域，该数据集为研究者提供了丰富的雅虎财经股票新闻文章及其摘要。这些数据特别适用于训练和评估自动摘要生成模型，尤其是在金融领域特定语境下的文本理解与压缩。通过精确的股票符号标注，研究者能够针对特定上市公司进行定向分析，探索市场事件与文本内容间的深层关联。

解决学术问题

该数据集有效解决了金融领域文本摘要的两大核心问题：专业术语的语义保留和关键信息的精准提取。基于Llama3.1-70B生成的参考摘要，为评估模型在金融文本的领域适应性提供了黄金标准，显著提升了算法在抽取式与生成式摘要任务中的表现。其带有时序标记的新闻数据，更为研究市场信息传播时效性提供了独特视角。

衍生相关工作

该数据集催生了多个金融NLP领域的创新研究，包括基于注意力机制的时序感知摘要模型和股票特定的事件提取框架。部分工作将摘要任务与股价预测相结合，证明了文本压缩信息对市场预测的有效性。另有研究利用其构建了金融领域零样本分类基准，推动了小样本学习在专业领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集