five

sehyun66/Finnhub-News

收藏
Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sehyun66/Finnhub-News
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,如clean和default,每个配置下有不同的数据文件路径和分割。数据集的特征包括日期时间、图像、相关链接、来源、摘要、URL、ID、类别和标题等。此外,还包含情感分析相关的特征,如标题和摘要的情感分析结果。数据集的大小和下载大小也有详细说明。

This dataset includes multiple configurations such as clean and default, with distinct data file paths and data splits under each configuration. Its features cover date and time, images, relevant links, sources, abstracts, URLs, IDs, categories, and titles, among others. Additionally, it encompasses sentiment analysis-related features, such as the sentiment analysis results for titles and abstracts. Detailed specifications for both the dataset size and download size are also provided.
提供机构:
sehyun66
原始信息汇总

数据集配置

配置 clean

  • 数据文件路径: clean/clean-*
  • 特征:
    • datetime: int64
    • image: string
    • related: string
    • source: string
    • summary: string
    • url: string
    • id: int64
    • category: string
    • headline: string
  • 分割:
    • clean:
      • num_bytes: 150902085
      • num_examples: 316086
  • 下载大小: 78262136
  • 数据集大小: 150902085

配置 default

  • 数据文件路径:
    • data/finbert-*
    • data/train-*
  • 特征:
    • related: string
    • datetime: int64
    • image: string
    • url: string
    • headline: string
    • finbert_sentiment:
      • negative: float64
      • neutral: float64
      • postive: float64
    • source: string
    • summary: string
    • id: int64
    • category: string
  • 分割:
    • train:
      • num_bytes: 251731744
      • num_examples: 515851
  • 下载大小: 113022298
  • 数据集大小: 251731744

配置 distill_bert

  • 特征:
    • headline: string
    • summary: string
    • headline_sentiment:
      • postive: string
      • negative: string
      • neutral: string
    • summary_sentiment:
      • postive: string
      • negative: string
      • neutral: string
  • 分割:
    • default:
      • num_bytes: 131086592
      • num_examples: 316086
  • 下载大小: 0
  • 数据集大小: 131086592

标签

  • finance
搜集汇总
数据集介绍
main_image_url
构建方式
在金融信息处理领域,Finnhub-News数据集通过整合Finnhub平台提供的实时新闻流构建而成。该数据集以结构化方式收录了涵盖多个类别的财经新闻条目,每条记录均包含时间戳、标题、摘要、来源及情感标签等关键字段。数据清洗过程确保了信息的完整性与一致性,原始文本经过预处理后形成两个主要配置版本,分别针对不同分析需求进行了优化。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集的两种配置版本,其中clean配置适用于通用文本分析任务,而default配置则专为金融情感分析模型训练设计。使用时可依据需求选择相应数据分割,例如利用train分割进行模型训练,或通过clean分割进行文本特征提取。数据集支持标准化的数据管道接口,能够无缝集成至自然语言处理框架,助力金融舆情监测、市场预测等应用场景的实证研究。
背景与挑战
背景概述
在金融科技与自然语言处理交叉领域,Finnhub-News数据集由sehyun66于近年构建并发布,旨在为财经新闻情感分析提供高质量语料。该数据集汇聚了来自Finnhub平台的实时新闻条目,覆盖了股票市场、宏观经济及企业动态等多重类别,其核心研究问题聚焦于通过新闻文本挖掘市场情绪,以辅助量化交易与风险预测。该数据集的推出,显著推动了金融情感分析模型的精细化发展,为学术界与工业界提供了关键的数据支撑,促进了基于新闻事件的金融市场行为理解。
当前挑战
Finnhub-News数据集致力于解决金融新闻情感分析的复杂挑战,包括新闻文本中隐含情绪的精准识别、市场噪音与关键信息的有效分离,以及跨领域金融术语的语义消歧。在构建过程中,数据采集面临实时新闻流的高频更新与数据一致性问题,需处理多源异构信息并确保时间戳的精确对齐。此外,情感标注环节依赖预训练模型如FinBERT,其标注质量受限于模型在特定金融语境下的泛化能力,且需应对新闻摘要与标题之间可能存在的情绪不一致性,增加了数据清洗与验证的复杂度。
常用场景
经典使用场景
在金融文本分析领域,Finnhub-News数据集凭借其丰富的新闻标题、摘要及情感标注,成为训练金融情感分析模型的经典资源。研究者常利用该数据集构建深度学习模型,以自动识别新闻文本中的情感倾向,进而分析市场情绪与资产价格波动之间的关联。这种应用不仅提升了金融文本处理的自动化水平,还为量化投资策略提供了数据驱动的洞察基础。
解决学术问题
该数据集有效解决了金融自然语言处理中情感标注稀缺的学术难题,为研究新闻情感对市场影响的机制提供了标准化数据支撑。通过整合多维度情感标签,它助力学者探索文本情感与股票收益率、波动性之间的因果关系,推动了行为金融学与计算金融的交叉研究。其意义在于构建了连接非结构化文本信息与结构化市场数据的桥梁,深化了市场微观结构理论的实证基础。
实际应用
在实际金融场景中,Finnhub-News数据集被广泛应用于构建实时新闻情感监测系统,为投资机构提供情绪预警信号。基于该数据集训练的模型可集成至交易平台,辅助分析师评估新闻事件对特定行业或公司的潜在影响,优化风险管理和资产配置决策。此外,它还能支持金融科技公司开发个性化新闻推送服务,增强客户的市场感知能力。
数据集最近研究
最新研究方向
在金融科技领域,新闻文本的情感分析已成为量化投资与风险管理的核心工具。Finnhub-News数据集凭借其丰富的新闻标题、摘要及预计算的情感标签,为基于自然语言处理的金融市场情绪建模提供了高质量语料。当前研究前沿聚焦于利用该数据集训练多模态情感分析模型,结合文本与时间序列数据,以捕捉新闻事件对资产价格的动态影响。随着生成式人工智能的兴起,该数据集亦被用于微调大型语言模型,提升其在金融领域的情感理解与事件推理能力,助力自动化交易策略的优化与金融风险预警系统的构建。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作