EagleWHLiang/FinSen

Name: EagleWHLiang/FinSen
Creator: EagleWHLiang
Published: 2025-03-14 04:37:34
License: 暂无描述

Hugging Face2025-03-14 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/EagleWHLiang/FinSen

下载链接

链接失效反馈

官方服务：

资源简介：

FinSen数据集通过整合来自197个国家的经济和金融新闻文章与股票市场数据，革新了金融市场分析。该数据集的时间跨度为2007年至2023年，包含160,000条记录，提供了丰富的全球视角。研究利用因果验证的情感评分和LSTM模型，提高了市场预测的准确性和可靠性。数据集主要用于文本分类和特征提取任务，适用于金融领域的NLP研究。

The FinSen dataset integrates economic and financial news articles from 197 countries with stock market data, spanning 15 years from 2007 to 2023, containing 160,000 records. The dataset leverages causally validated sentiment scores and LSTM models to enhance the accuracy and reliability of market forecasts. The dataset can be manually downloaded as a csv file, with sentiment and scores generated by the FinBert model. Currently, only US data is provided for research purposes, and data for other countries can be obtained by contacting the author.

提供机构：

EagleWHLiang

搜集汇总

数据集介绍

构建方式

在金融文本分析领域，FinSen数据集的构建体现了严谨的学术方法。该数据集系统性地整合了2007年至2023年间全球197个国家的经济与金融新闻文本，并与同期股票市场数据进行了时序对齐。其核心构建流程采用了先进的自然语言处理技术，通过预训练的FinBERT模型对海量新闻内容进行情感分析，生成具有因果验证基础的情感分数标签，最终形成了包含超过16万条记录的、兼具文本与数值特征的综合性金融语料库。

使用方法

针对金融预测与文本分类任务，FinSen数据集提供了明确的使用路径。研究者可通过项目仓库获取CSV格式的原始数据，并利用配套的`finsen.py`预处理脚本构建数据加载器，便捷地接入PyTorch等深度学习框架。对于市场预测研究，建议将数据集中的情感分数作为关键特征，与LSTM等时序模型结合，以探究新闻情绪对资产价格的预测能力。在文本分析层面，其标注好的情感极性可直接用于训练或评估金融领域的情感分类模型。

背景与挑战

背景概述

在金融科技与自然语言处理交叉领域，市场预测的精准度长期受限于数据源的单一性与噪声干扰。由阿德莱德大学研究人员Wenhao Liang等人于2024年构建的FinSen数据集，旨在通过融合全球197个国家长达15年（2007-2023）的经济新闻文本与股市数据，解决金融情感分析中的因果推断难题。该数据集依托因果验证的情感评分框架，为量化金融研究提供了跨地域、跨时序的高质量语料库，显著推动了基于新闻事件的股市波动预测模型向更高可靠性演进。

当前挑战

FinSen数据集致力于攻克金融文本情感分析在股市预测应用中的核心挑战，即如何从海量新闻中提取具有因果解释力的情感特征，以降低市场噪声对预测模型的干扰。在构建过程中，研究团队面临多语言经济新闻的标准化清洗、跨国家股市数据的时序对齐，以及基于FinBERT模型的情感评分在因果验证框架下的校准等复杂工程问题，这些挑战共同塑造了数据集的技术深度与应用边界。

常用场景

经典使用场景

在金融量化分析领域，FinSen数据集以其覆盖全球197个国家、横跨15年的经济新闻与股市数据融合特性，成为研究市场情绪与资产价格关联性的经典资源。该数据集通过FinBERT模型生成因果验证的情感分数，结合LSTM等时序模型，为预测股票指数波动提供了高维度的文本特征支持，尤其适用于探索新闻情感对市场趋势的滞后影响机制。

解决学术问题

FinSen数据集有效应对了金融文本分析中语义噪声与市场信号分离的学术挑战。通过引入因果驱动的特征选择方法，它解决了传统情感分析在金融领域泛化能力不足的问题，为验证新闻情感与股价波动间的因果关系提供了实证基础。其跨地域、长周期的数据架构，显著提升了市场预测模型的可解释性与稳健性，推动了计算金融学在因子挖掘领域的范式演进。

实际应用

在实际金融业务中，FinSen数据集为自动化交易系统与风险管理平台提供了关键的情感知觉层。投资机构可依据其情感分数构建动态对冲策略，量化新闻事件对特定资产或行业板块的冲击强度。监管机构亦能借助该数据集监测市场情绪异动，预警系统性金融风险，实现从宏观政策到微观操作的全链条决策支持。

数据集最近研究