five

MinutasBanRepCol

收藏
Hugging Face2024-12-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/yabramuvdi/MinutasBanRepCol
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由哥伦比亚中央银行(Banco de la República)的货币政策会议纪要组成,旨在为研究提供便利。会议纪要描述了哥伦比亚中央银行董事会成员在利率政策决策中所考虑的因素及其决策本身。数据集从2007年6月开始,包含日期和文本两个属性。数据来源于哥伦比亚中央银行的官方网站,文本从PDF文件中提取,未进行预处理。数据集可自由用于非商业目的,需注明出处。
创建时间:
2024-11-29
原始信息汇总

Minutas Banco de la República Colombia 数据集

基本信息

  • 许可证: odc-by
  • 语言: 西班牙语
  • 标签: 经济学
  • 大小类别: n<1K
  • 任务类别: 文本分类
  • 格式: CSV, Parquet

描述

该数据集旨在整合哥伦比亚中央银行(Banco de la República)的货币政策会议纪要,并使其易于用于研究。会议纪要描述了哥伦比亚中央银行董事会成员在利率政策决策中所考虑的因素以及决策本身。这些关于中央银行会议纪要的语料库在经济学文献中被广泛使用,用于构建情感指标,以及从基于文本的非结构化数据中提取货币政策指标和经济变量。通常,现有的语料库以英语为主,但据我们所知,这是首个以西班牙语提供的货币政策语料库。

数据集中的会议纪要从2007年6月开始,当时哥伦比亚中央银行董事会决定开始发布这些纪要。

动机

经济学文献最近开始使用中央银行的公告作为丰富的数据来源进行分析。然而,截至目前,没有公开可访问的、以西班牙语为官方语言的中央银行数据源。通过这个数据集,我们希望开始这一路径,增加西班牙语高质量公共数据库的数量。

结构

该数据集为表格格式(185 x 2)。每条记录包含以下属性:

  1. fecha: 会议纪要的发布日期(YYYY-MM-DD)。日期中的日部分不准确,因此所有日期都以当月的第一天作为日。
  2. text: 从原始PDF中提取的会议纪要文本。

数据来源

原始的PDF格式会议纪要文件可以在哥伦比亚中央银行的官方页面找到。感谢Fredy Muñoz在整合会议纪要数据集方面的合作。

数据处理

会议纪要文本是从PDF中使用PyMuPDF提取的。为了保留尽可能多的信息,没有应用任何文本预处理步骤,相关步骤由用户自行决定。

使用和引用政策

该语料库可以自由用于非商业目的,只需注明作者: bash @misc{Muvdi2024BanRep title={Minutas Política Monetaria Banco de la República Colombia}, author={Muvdi Yabra and Javier Gómez}, year={2024}, url = {https://huggingface.co/datasets/yabramuvdi/MinutasBanRepCol/} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建旨在整合哥伦比亚中央银行(Banco de la República)的货币政策会议纪要,以便于学术研究。会议纪要自2007年6月起开始发布,详细记录了央行董事会成员在利率政策决策过程中考虑的因素及其决策本身。数据集通过从PDF文件中提取文本,使用PyMuPDF工具进行处理,未进行任何文本预处理,以保留所有原始信息。
使用方法
用户可以通过Python的datasets库加载该数据集,使用方法简单直接。数据集适用于文本分类任务,特别适合于经济学领域的研究,如构建情感指标或从非结构化文本中提取货币政策和经济变量指标。使用时需注意,日期中的天数均为每月的第一天,且文本未经预处理,用户可根据需求自行处理。
背景与挑战
背景概述
MinutasBanRepCol数据集由Yabra Muvdi和Javier Gómez创建,旨在整合哥伦比亚中央银行(Banco de la República)的货币政策会议纪要,并使其易于用于研究。该数据集包含了自2007年6月起发布的会议纪要,详细记录了哥伦比亚央行董事会成员在利率政策决策过程中考虑的因素及其决策本身。这些会议纪要在经济学文献中被广泛用于构建情绪指标、提取货币政策指标和经济变量。值得注意的是,尽管现有的中央银行会议纪要数据集多为英文,但MinutasBanRepCol是首个以西班牙语提供的此类数据集,填补了该领域的空白。
当前挑战
MinutasBanRepCol数据集面临的挑战主要集中在两个方面。首先,尽管中央银行会议纪要已被广泛用于经济学研究,但以西班牙语提供的数据集相对稀缺,这限制了西班牙语研究者在相关领域的深入分析。其次,数据集的构建过程中,从PDF文件中提取文本并确保信息的完整性是一个技术挑战。此外,由于数据集的文本未经预处理,研究者在分析时需要自行决定如何处理和清洗数据,这增加了数据使用的复杂性。
常用场景
经典使用场景
MinutasBanRepCol数据集的经典使用场景主要集中在经济学领域的文本分析与政策研究。该数据集包含了哥伦比亚中央银行(Banco de la República)自2007年以来的货币政策会议纪要,这些纪要详细记录了决策者在利率政策制定过程中的考量因素及最终决策。研究者可以利用这些文本数据构建情感指标,提取货币政策信号,并从非结构化文本中推导出经济变量,从而为宏观经济分析提供新的视角。
解决学术问题
该数据集解决了经济学研究中缺乏西班牙语货币政策文本数据的学术问题。传统上,相关研究多依赖于英语语料,而MinutasBanRepCol的发布填补了这一空白,使得研究者能够在西班牙语环境中开展货币政策分析。这不仅拓宽了研究范围,还为跨语言的经济政策比较研究提供了可能性,进一步推动了经济学领域的国际化与多元化发展。
实际应用
在实际应用中,MinutasBanRepCol数据集可用于金融市场的预测与分析,帮助投资者和政策制定者更好地理解货币政策的变化及其对经济的影响。此外,该数据集还可用于构建经济指标,如利率预期、通胀预期等,为宏观经济政策的制定提供数据支持。通过分析会议纪要中的文本信息,决策者可以更准确地评估市场情绪,从而制定更为有效的经济政策。
数据集最近研究
最新研究方向
近年来,随着经济研究对非结构化文本数据的依赖日益增加,MinutasBanRepCol数据集在货币政策领域的研究中展现出显著的前沿价值。该数据集首次提供了西班牙语的货币政策会议纪要,填补了该语言领域在货币政策研究中的空白。研究者们正利用这一资源,探索如何从文本中提取情绪指标、货币政策信号以及经济变量,进而为政策制定提供更为精准的分析工具。此外,该数据集的开放性也为跨语言的经济学研究提供了新的可能性,推动了全球范围内对货币政策透明度和决策过程的深入理解。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作