five

NewsSummaryEventSpeeches

收藏
Hugging Face2025-09-16 更新2025-09-17 收录
下载链接:
https://huggingface.co/datasets/SelmaNajih001/NewsSummaryEventSpeeches
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含结构化的历史金融信息,用于支持带有可解释性的股票预测模型。它包括中央银行讲话摘要、特定日期的金融新闻摘要以及与股票价格变动相关的特定股票事件。数据集旨在为自然语言处理模型提供高效检索和集成,用于分析金融新闻和股票事件。
创建时间:
2025-09-16
原始信息汇总

数据集概述

基本信息

  • 数据集名称:Newss summaries, event and Central Banks speeches
  • 许可协议:CC-BY-4.0
  • 语言:英语(en)
  • 数据规模:100K < n < 1M

数据集内容

  • 特征
    • text(字符串类型)
    • index_level_0(int64类型)
  • 数据拆分
    • train:140,553个样本,114,995,902字节
  • 下载大小:54,905,608字节
  • 数据集大小:114,995,902字节

数据描述

该数据集包含用于支持具有可解释性说明的股票预测模型的结构化历史金融信息。

主要内容

  • 央行演讲摘要
  • 特定日期金融新闻的要点摘要
  • 具有相应价格变动(百分比变化)的股票特定事件

用途

数据集条目提供历史背景,用于生成准确且可解释的预测。该数据集与FAISS索引配合使用,通过检索相关事件来基于过去的金融数据提供解释。

任务类别

  • 文本分类
  • 文本生成
  • 问答系统
  • 命名实体识别
  • 情感分析
  • 主题分类
  • RAG(检索增强生成)
  • 轻量级LLM

标签

  • 金融(finance)
  • 微调(fine-tuning)
  • 对话AI(conversational-ai)
  • 命名实体识别(named-entity-recognition)
  • 情感分析(sentiment-analysis)
  • 主题分类(topic-classification)
  • RAG
  • 轻量级LLM(lightweight-llm)

格式

为高效检索和与分析金融新闻和股票事件的NLP模型集成而结构化。

相关资源

FAISS索引存储在https://huggingface.co/spaces/SelmaNajih001/StockPredictionExplanation,包含index.faiss和index.pkl文件。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过系统性地整合历史金融信息构建而成,涵盖中央银行演讲摘要、特定日期财经新闻的要点总结以及股票相关事件及其价格变动数据。构建过程注重信息来源的权威性与时效性,采用自动化与人工校验相结合的方式,确保数据的准确性与结构化程度,便于后续的高效检索与分析。
特点
数据集以高度结构化的形式呈现,包含文本字段和索引字段,支持多种自然语言处理任务,如文本分类、生成及问答等。其内容聚焦金融领域,兼具事件描述与数值变动信息,为模型提供丰富的上下文背景,特别适合用于可解释性金融预测研究。
使用方法
用户可通过下载数据集并与配套的FAISS索引文件结合使用,实现高效相似性检索。该数据集适用于训练或微调轻量级语言模型,也可作为检索增强生成(RAG)任务的基础语料,为股票预测、事件分析等应用提供历史依据与解释性支持。
背景与挑战
背景概述
金融信息处理领域长期面临非结构化文本数据与市场预测模型间的语义鸿沟问题。NewsSummaryEventSpeeches数据集由SelmaNajih001研究团队于2023年构建,旨在通过结构化历史金融信息搭建可解释性股票预测的知识桥梁。该数据集整合央行演讲摘要、财经新闻要点与特定股票事件的三维数据,为量化金融模型提供具备时序特征与事件关联性的高质量语料,显著提升了金融自然语言处理任务中事件驱动型预测的透明度与可验证性。
当前挑战
在金融文本分析领域,该数据集需解决事件类型多尺度标注、市场反应因果关联建模、跨源信息一致性校验等核心问题。数据构建过程中面临三重挑战:金融术语的领域特异性要求专业标注体系,新闻摘要与股价波动的时序对齐需要精密计算,央行演讲的政策语义解析依赖经济学先验知识。此外,多模态金融数据的异构性对向量化检索技术提出更高要求,需通过FAISS索引实现毫秒级相关事件检索,保障预测模型实时性。
常用场景
经典使用场景
在金融文本分析领域,该数据集被广泛应用于训练和评估文本摘要生成模型,特别是针对央行演讲和财经新闻的自动摘要任务。研究人员利用其结构化的事件描述与价格变动关联数据,构建端到端的摘要生成系统,能够自动提炼关键金融事件的核心信息,为市场参与者提供即时、精准的资讯浓缩服务。
实际应用
实际应用中,该数据集被集成至智能投研平台,为量化交易团队提供历史事件检索与对比分析功能。金融机构利用其FAISS索引实现高速相似事件匹配,辅助分析师快速定位历史行情中的类似模式,从而优化投资策略的制定与风险评估流程,增强决策的数据支撑能力。
衍生相关工作
基于该数据集衍生的经典工作包括基于检索增强生成(RAG)的股票预测解释系统,如关联空间的FAISS索引应用。多项研究进一步扩展了其在轻量级LLM微调、金融事件实体识别及情感分析任务中的适应性,催生了诸如多模态金融事件检索框架和时序感知的新闻摘要生成器等创新成果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作