five

FOMC文本数据集|货币政策数据集|金融市场分析数据集

收藏
arXiv2023-05-14 更新2024-06-21 收录
货币政策
金融市场分析
下载链接:
https://huggingface.co/, https://github.com/FinTech-Lab
下载链接
链接失效反馈
资源简介:
FOMC文本数据集是由佐治亚理工学院创建的,包含从1996年至2022年的联邦公开市场委员会(FOMC)会议记录、新闻发布会记录和演讲文本。数据集经过精细处理,包括文本标注和分词,旨在分析货币政策如何影响金融市场。该数据集不仅用于构建货币政策立场分类器,还用于验证模型在预测经济和金融指标方面的性能,广泛应用于金融和经济研究领域,以解决金融市场对货币政策反应的复杂问题。
提供机构:
佐治亚理工学院
创建时间:
2023-05-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
FOMC文本数据集通过收集1996年至2022年期间联邦公开市场委员会(FOMC)的会议纪要、新闻发布会 transcripts 和演讲文本构建而成。数据集的构建过程包括使用BeautifulSoup和Selenium进行网页抓取,并通过正则表达式工具对数据进行清洗。为了确保数据的准确性和相关性,研究团队还开发了一个基于关键词的过滤器,用于筛选与货币政策立场相关的句子。此外,数据集中的句子经过NLTK库的tokenization处理,并进行了手动标注,标注类别包括鸽派(Dovish)、鹰派(Hawkish)和中性(Neutral)。为了处理句子中可能存在的混合语气,研究团队还设计了一种基于关键词的句子分割方法,以提高分类的准确性。
使用方法
FOMC文本数据集可用于多种自然语言处理任务,特别是货币政策立场的分类任务。研究人员可以使用该数据集训练和评估模型,以识别文本中的鸽派、鹰派和中性立场。数据集的标注和分割方法为模型提供了高质量的训练数据,适用于各种预训练语言模型(如BERT、RoBERTa等)的微调。此外,数据集还可用于研究FOMC文本对金融市场和经济指标的影响,通过构建货币政策立场的度量指标,进一步分析其对市场变量的预测能力。
背景与挑战
背景概述
FOMC文本数据集由Agam Shah、Suvan Paturi和Sudheer Chava在乔治亚理工学院构建,旨在通过分析联邦公开市场委员会(FOMC)的演讲、会议纪要和新闻发布会 transcripts,深入理解货币政策对金融市场的影响。该数据集创建于2022年,涵盖了1996年至2022年的文本数据,并首次引入了鹰派-鸽派分类任务,以替代传统的正面-负面情感分类。通过使用RoBERTa-large模型,研究人员构建了货币政策立场的量化指标,并验证了其在国债市场、股票市场和宏观经济指标中的有效性。该数据集的公开发布为金融领域的自然语言处理研究提供了宝贵的资源,推动了货币政策与金融市场关系研究的前沿。
当前挑战
FOMC文本数据集的构建面临多重挑战。首先,传统的情感分析模型无法准确捕捉货币政策的鹰派或鸽派立场,因为某些词汇在不同语境下可能具有不同的含义,例如“增加”在涉及“就业”时为鸽派,而在涉及“通胀”时则为鹰派。其次,构建过程中需要处理大量噪声数据,如与货币政策无关的句子,这要求研究人员设计有效的过滤机制。此外,由于缺乏标注数据,研究人员不得不采用手动标注的方式,并通过句子分割技术处理复杂的语句结构。这些挑战凸显了在金融文本分析中,如何有效提取和量化货币政策立场的复杂性。
常用场景
经典使用场景
FOMC文本数据集的经典使用场景主要集中在货币政策的鹰鸽分类任务上。通过分析美联储公开市场委员会(FOMC)的演讲、会议纪要和新闻发布会 transcripts,研究者能够提取出与货币政策立场相关的信息,并将其分类为鹰派(hawkish)、鸽派(dovish)或中性(neutral)。这一任务的核心在于理解美联储的货币政策如何影响金融市场,尤其是通过语言模型对文本进行细粒度的情感分析,从而捕捉政策立场的变化。
解决学术问题
FOMC文本数据集解决了传统金融文本分析中无法准确区分鹰鸽立场的问题。传统的情感分析模型通常将文本分类为正面或负面,无法有效捕捉货币政策中的复杂语义。例如,“增加”一词在不同语境下可能代表不同的政策立场。该数据集通过引入鹰鸽分类任务,填补了这一研究空白,为金融市场的预测和政策分析提供了更为精确的工具,推动了货币政策与金融市场互动研究的发展。
实际应用
FOMC文本数据集在实际应用中具有广泛的前景,尤其是在金融市场预测和投资策略制定方面。通过分析美联储的政策立场,投资者可以更好地预测利率变动、债券收益率和股票市场的波动。例如,基于该数据集构建的模型可以帮助投资者在美联储发布鹰派声明时采取防御性策略,或在鸽派声明发布时采取进攻性策略。此外,该数据集还可用于宏观经济指标的预测,帮助政策制定者和市场参与者更好地理解货币政策对经济的影响。
数据集最近研究
最新研究方向
FOMC文本数据集的最新研究方向集中在利用自然语言处理技术对美联储货币政策立场进行分类和分析。研究者们通过构建大规模的FOMC演讲、会议纪要和新闻发布会文本数据集,提出了鹰派-鸽派分类任务,并对比了多种预训练语言模型在该任务上的表现。其中,RoBERTa-large模型表现最为出色,能够有效捕捉美联储文本中的货币政策立场,并将其应用于国债市场、股票市场和宏观经济指标的预测中。此外,研究还探讨了零样本学习模型(如ChatGPT)在该任务中的表现,发现其性能不及经过微调的预训练语言模型。该研究不仅为金融市场的预测提供了新的工具,还为货币政策沟通的量化分析开辟了新的研究路径。
相关研究论文
  • 1
    Trillion Dollar Words: A New Financial Dataset, Task & Market Analysis佐治亚理工学院 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

TIMIT

TIMIT 阅读语音语料库的开发旨在为声学语音研究和自动语音识别系统的评估提供语音数据。 TIMIT 包含 630 个人/说话者的 8 种不同美式英语方言的高质量录音,每个人阅读多达 10 个语音丰富的句子。

OpenDataLab 收录

CrowdHuman

CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性,包含训练、验证和测试集,共计47万个标注的人体实例,平均每张图像有23个人,包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。

github 收录