gtfintechlab/fomc_communication
收藏Hugging Face2024-12-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gtfintechlab/fomc_communication
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是最大的标记和注释的FOMC(联邦公开市场委员会)演讲、会议记录和新闻发布会记录的数据集,旨在理解货币政策如何影响金融市场。研究还开发了一个新的鹰派-鸽派分类任务,并在该数据集上对各种预训练语言模型进行了基准测试。使用表现最佳的模型(RoBERTa-large),构建了FOMC文件发布日的货币政策立场度量,并评估了其对国债市场、股票市场和宏观经济指标的影响。
This dataset is the largest labeled and annotated collection of Federal Open Market Committee (FOMC) speeches, meeting minutes, and press conference transcripts. It is designed to advance the understanding of how monetary policy impacts financial markets. The study further developed a novel hawk-dove classification task, and benchmarked various pre-trained language models on this dataset. Leveraging the best-performing model (RoBERTa-large), a monetary policy stance metric was constructed for the release dates of FOMC documents, and its impacts on treasury bond markets, stock markets, and macroeconomic indicators were evaluated.
提供机构:
gtfintechlab
原始信息汇总
数据集概述
许可证
- 许可证类型:CC BY-NC 4.0
任务类别
- 文本分类
语言
- 英语
标签
- 金融
数据规模
- 1K<n<10K
引用信息
- 论文标题:Trillion Dollar Words: A New Financial Dataset, Task & Market Analysis
- 作者:Shah, Agam; Paturi, Suvan; Chava, Sudheer
- 会议:Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
- 日期:2023年7月
- 地点:Toronto, Canada
- 出版商:Association for Computational Linguistics
- URL:https://aclanthology.org/2023.acl-long.368
- DOI:10.18653/v1/2023.acl-long.368
- 页码:6664--6679
- 摘要:Monetary policy pronouncements by Federal Open Market Committee (FOMC) are a major driver of financial market returns. We construct the largest tokenized and annotated dataset of FOMC speeches, meeting minutes, and press conference transcripts in order to understand how monetary policy influences financial markets. In this study, we develop a novel task of hawkish-dovish classification and benchmark various pre-trained language models on the proposed dataset. Using the best-performing model (RoBERTa-large), we construct a measure of monetary policy stance for the FOMC document release days. To evaluate the constructed measure, we study its impact on the treasury market, stock market, and macroeconomic indicators. Our dataset, models, and code are publicly available on Huggingface and GitHub under CC BY-NC 4.0 license.
联系信息
- 联系人:Agam Shah
- 邮箱:ashah482[at]gatech[dot]edu
- GitHub:@shahagam4
- 网站:https://shahagam4.github.io/
搜集汇总
数据集介绍

构建方式
在金融领域,联邦公开市场委员会(FOMC)的声明对金融市场具有深远影响。该数据集通过系统性地收集和标注FOMC的演讲、会议纪要及新闻发布会记录,构建了一个大规模的文本分类数据集。具体而言,研究团队对这些文本进行了细致的分类,将其划分为鹰派(Hawkish)、鸽派(Dovish)和中性(Neutral)三类,以捕捉货币政策立场的细微差别。这一构建过程不仅依赖于自然语言处理技术,还结合了金融市场的实际反馈,确保了数据集的实用性和准确性。
特点
该数据集的显著特点在于其专注于货币政策声明的情感分类,涵盖了FOMC的多种沟通形式,包括演讲、会议纪要和新闻发布会记录。通过将文本划分为鹰派、鸽派和中性三类,数据集为研究货币政策对金融市场的影响提供了丰富的资源。此外,数据集的规模适中,介于1千到1万条记录之间,适合多种机器学习模型的训练与评估。
使用方法
该数据集主要用于文本分类任务,特别是针对货币政策声明的情感分析。用户可以利用此数据集训练和评估各种预训练语言模型,如RoBERTa-large,以识别和分类FOMC声明中的鹰派、鸽派和中性立场。通过分析这些分类结果,研究者可以进一步探讨货币政策对金融市场和宏观经济指标的影响。数据集的公开使用遵循CC BY-NC 4.0许可,确保了学术和非商业用途的合法性。
背景与挑战
背景概述
在金融领域,联邦公开市场委员会(FOMC)的货币政策声明对金融市场具有深远影响。为了深入研究这一影响,Agam Shah、Suvan Paturi和Sudheer Chava于2023年创建了gtfintechlab/fomc_communication数据集。该数据集包含了FOMC的演讲、会议记录和新闻发布会记录,并通过标注形成了鹰派(Hawkish)、鸽派(Dovish)和中性(Neutral)三类标签。这一数据集的构建旨在通过自然语言处理技术,分析货币政策对金融市场的具体影响,并为相关研究提供了宝贵的资源。该数据集的发布不仅推动了金融文本分类技术的发展,也为宏观经济和金融市场研究提供了新的视角。
当前挑战
该数据集在构建过程中面临了多项挑战。首先,如何准确标注FOMC的文本内容,以区分鹰派、鸽派和中性立场,是一个复杂且主观性较强的问题。其次,由于金融文本的特殊性,模型在处理这些文本时需要具备高度的专业性和敏感性,以确保分类结果的准确性和可靠性。此外,数据集的应用场景广泛,涉及国债市场、股票市场和宏观经济指标等多个领域,如何在不同场景下保持模型的稳定性和预测能力,也是一大挑战。最后,数据集的公开和使用需遵循严格的版权和使用限制,确保其合法性和可持续性。
常用场景
经典使用场景
在金融领域,gtfintechlab/fomc_communication数据集的经典使用场景主要集中在对美联储公开市场委员会(FOMC)的货币政策声明进行情感分类。通过将文本数据标注为鹰派(Hawkish)、鸽派(Dovish)或中性(Neutral),研究者能够分析FOMC的言论对金融市场的潜在影响。这种分类任务不仅有助于理解货币政策对市场的即时反应,还能为投资者提供决策支持,预测市场波动。
衍生相关工作
基于gtfintechlab/fomc_communication数据集,衍生出了多项经典工作。例如,研究者利用该数据集训练的RoBERTa-large模型,成功构建了货币政策立场的量化指标,并进一步分析了这些指标对国债市场、股票市场和宏观经济的影响。此外,该数据集还激发了对货币政策与金融市场互动的深入研究,推动了相关领域的理论和实证分析。
数据集最近研究
最新研究方向
在金融领域,gtfintechlab/fomc_communication数据集的最新研究方向聚焦于利用自然语言处理技术解析联邦公开市场委员会(FOMC)的货币政策声明,以预测市场反应。该数据集通过标注鹰派(Hawkish)、鸽派(Dovish)和中性(Neutral)标签,为研究者提供了一个独特的视角来分析货币政策对金融市场的影响。前沿研究不仅关注于构建高效的分类模型,如RoBERTa-large,还探索了这些模型在国债市场、股票市场及宏观经济指标上的实际应用效果。这一研究方向不仅深化了对货币政策传导机制的理解,也为金融市场参与者提供了更为精准的决策支持工具。
以上内容由遇见数据集搜集并总结生成



