FOMC文本数据集
收藏arXiv2023-05-14 更新2024-06-21 收录
下载链接:
https://huggingface.co/, https://github.com/FinTech-Lab
下载链接
链接失效反馈官方服务:
资源简介:
FOMC文本数据集是由佐治亚理工学院创建的,包含从1996年至2022年的联邦公开市场委员会(FOMC)会议记录、新闻发布会记录和演讲文本。数据集经过精细处理,包括文本标注和分词,旨在分析货币政策如何影响金融市场。该数据集不仅用于构建货币政策立场分类器,还用于验证模型在预测经济和金融指标方面的性能,广泛应用于金融和经济研究领域,以解决金融市场对货币政策反应的复杂问题。
The FOMC Text Dataset was developed by the Georgia Institute of Technology, containing minutes of Federal Open Market Committee (FOMC) meetings, press conference transcripts, and speech texts spanning from 1996 to 2022. The dataset has undergone rigorous preprocessing, including text annotation and word segmentation, and is designed to analyze how monetary policy impacts financial markets. It is not only used to construct monetary policy stance classifiers, but also to validate the performance of models in forecasting economic and financial indicators. This dataset has been widely applied in financial and economic research to address complex issues regarding financial markets' responses to monetary policy.
提供机构:
佐治亚理工学院
创建时间:
2023-05-14
搜集汇总
数据集介绍

构建方式
FOMC文本数据集通过收集1996年至2022年期间联邦公开市场委员会(FOMC)的会议纪要、新闻发布会 transcripts 和演讲文本构建而成。数据集的构建过程包括使用BeautifulSoup和Selenium进行网页抓取,并通过正则表达式工具对数据进行清洗。为了确保数据的准确性和相关性,研究团队还开发了一个基于关键词的过滤器,用于筛选与货币政策立场相关的句子。此外,数据集中的句子经过NLTK库的tokenization处理,并进行了手动标注,标注类别包括鸽派(Dovish)、鹰派(Hawkish)和中性(Neutral)。为了处理句子中可能存在的混合语气,研究团队还设计了一种基于关键词的句子分割方法,以提高分类的准确性。
使用方法
FOMC文本数据集可用于多种自然语言处理任务,特别是货币政策立场的分类任务。研究人员可以使用该数据集训练和评估模型,以识别文本中的鸽派、鹰派和中性立场。数据集的标注和分割方法为模型提供了高质量的训练数据,适用于各种预训练语言模型(如BERT、RoBERTa等)的微调。此外,数据集还可用于研究FOMC文本对金融市场和经济指标的影响,通过构建货币政策立场的度量指标,进一步分析其对市场变量的预测能力。
背景与挑战
背景概述
FOMC文本数据集由Agam Shah、Suvan Paturi和Sudheer Chava在乔治亚理工学院构建,旨在通过分析联邦公开市场委员会(FOMC)的演讲、会议纪要和新闻发布会 transcripts,深入理解货币政策对金融市场的影响。该数据集创建于2022年,涵盖了1996年至2022年的文本数据,并首次引入了鹰派-鸽派分类任务,以替代传统的正面-负面情感分类。通过使用RoBERTa-large模型,研究人员构建了货币政策立场的量化指标,并验证了其在国债市场、股票市场和宏观经济指标中的有效性。该数据集的公开发布为金融领域的自然语言处理研究提供了宝贵的资源,推动了货币政策与金融市场关系研究的前沿。
当前挑战
FOMC文本数据集的构建面临多重挑战。首先,传统的情感分析模型无法准确捕捉货币政策的鹰派或鸽派立场,因为某些词汇在不同语境下可能具有不同的含义,例如“增加”在涉及“就业”时为鸽派,而在涉及“通胀”时则为鹰派。其次,构建过程中需要处理大量噪声数据,如与货币政策无关的句子,这要求研究人员设计有效的过滤机制。此外,由于缺乏标注数据,研究人员不得不采用手动标注的方式,并通过句子分割技术处理复杂的语句结构。这些挑战凸显了在金融文本分析中,如何有效提取和量化货币政策立场的复杂性。
常用场景
经典使用场景
FOMC文本数据集的经典使用场景主要集中在货币政策的鹰鸽分类任务上。通过分析美联储公开市场委员会(FOMC)的演讲、会议纪要和新闻发布会 transcripts,研究者能够提取出与货币政策立场相关的信息,并将其分类为鹰派(hawkish)、鸽派(dovish)或中性(neutral)。这一任务的核心在于理解美联储的货币政策如何影响金融市场,尤其是通过语言模型对文本进行细粒度的情感分析,从而捕捉政策立场的变化。
解决学术问题
FOMC文本数据集解决了传统金融文本分析中无法准确区分鹰鸽立场的问题。传统的情感分析模型通常将文本分类为正面或负面,无法有效捕捉货币政策中的复杂语义。例如,“增加”一词在不同语境下可能代表不同的政策立场。该数据集通过引入鹰鸽分类任务,填补了这一研究空白,为金融市场的预测和政策分析提供了更为精确的工具,推动了货币政策与金融市场互动研究的发展。
实际应用
FOMC文本数据集在实际应用中具有广泛的前景,尤其是在金融市场预测和投资策略制定方面。通过分析美联储的政策立场,投资者可以更好地预测利率变动、债券收益率和股票市场的波动。例如,基于该数据集构建的模型可以帮助投资者在美联储发布鹰派声明时采取防御性策略,或在鸽派声明发布时采取进攻性策略。此外,该数据集还可用于宏观经济指标的预测,帮助政策制定者和市场参与者更好地理解货币政策对经济的影响。
数据集最近研究
最新研究方向
FOMC文本数据集的最新研究方向集中在利用自然语言处理技术对美联储货币政策立场进行分类和分析。研究者们通过构建大规模的FOMC演讲、会议纪要和新闻发布会文本数据集,提出了鹰派-鸽派分类任务,并对比了多种预训练语言模型在该任务上的表现。其中,RoBERTa-large模型表现最为出色,能够有效捕捉美联储文本中的货币政策立场,并将其应用于国债市场、股票市场和宏观经济指标的预测中。此外,研究还探讨了零样本学习模型(如ChatGPT)在该任务中的表现,发现其性能不及经过微调的预训练语言模型。该研究不仅为金融市场的预测提供了新的工具,还为货币政策沟通的量化分析开辟了新的研究路径。
相关研究论文
- 1Trillion Dollar Words: A New Financial Dataset, Task & Market Analysis佐治亚理工学院 · 2023年
以上内容由遇见数据集搜集并总结生成



