InformesBanRep

Hugging Face2024-12-20 更新2024-12-21 收录

下载链接：

https://huggingface.co/datasets/yabramuvdi/InformesBanRep

下载链接

链接失效反馈

官方服务：

资源简介：

Informes de Política Monetaria Banco de la República Colombia数据集包含西班牙语的经济学相关文本。数据集以表格形式组织，每条记录包含发布日期和从PDF文件中提取的文本。文本使用Markdown格式以保留文档结构，包括标题和子标题。数据集的来源是哥伦比亚共和国银行的官方网站，处理工具为Docling。数据集可用于非商业用途，需引用作者。

创建时间：

2024-12-09

原始信息汇总

Informes de Política Monetaria Banco de la República Colombia 数据集

基本信息

许可证: odc-by
语言: 西班牙语
标签: 经济学
数据集名称: Informes de Política Monetaria Banco de la República Colombia
数据规模: n<1K
任务类别: 文本分类
格式: CSV, Parquet

描述

该数据集包含来自哥伦比亚共和国银行的货币政策报告。数据可以通过以下Python代码加载：

python from datasets import load_dataset

ds = load_dataset("yabramuvdi/InformesBanRepCol", "default", split="train")

数据集结构

该数据集为表格格式（104 x 2）。每条记录包含以下属性：

fecha: 报告的发布日期，格式为年-月-日（YYYY-MM-DD）。日期中的日部分不精确，因此所有日期都以该月的第一天表示。
text: 从原始PDF文件中提取的Markdown格式文本。使用Markdown的目的是尽可能保留文档的结构（如标题、子标题）。文本还包含文档中包含图片或表格的部分的指示。未来的计划是保留这些元素，以便在分析中使用。

数据来源

原始的PDF文件可以在哥伦比亚共和国银行网站上找到。感谢Fredy Muñoz在整理数据集方面的合作。

数据处理

使用Docling从PDF中提取文本。为了保留尽可能多的信息，没有进行任何文本预处理步骤，相关步骤由用户自行决定。

使用政策和引用

该语料库可以自由用于非商业目的，但需注明作者：

bash @misc{Muvdi2024InformesBanRep title={Informes de Política Monetaria Banco de la República Colombia}, author={Muvdi Yabra and Javier Gómez}, year={2024}, url = {https://huggingface.co/datasets/yabramuvdi/InformesBanRepCol/} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于哥伦比亚共和国银行（Banco de la República de Colombia）发布的货币政策报告。数据集通过从PDF文件中提取文本，并使用Docling工具进行处理，以保留文档的原始结构，包括标题、子标题以及图像和表格的指示。数据集的构建过程中未进行任何文本预处理，以确保最大限度地保留原始信息，供用户根据需求进行后续处理。

特点

该数据集的主要特点在于其结构化文本的保留，使用Markdown格式来保存文档的层次结构，如标题和子标题，同时标记了包含图像和表格的部分。此外，数据集的日期字段统一设置为每月的第一天，尽管实际发布日期可能有所不同。这种设计使得数据集在分析货币政策报告时能够提供丰富的上下文信息。

使用方法

用户可以通过Python的datasets库加载该数据集，具体方法为调用load_dataset函数并指定数据集名称和分割方式。数据集以CSV和Parquet格式提供，便于不同场景下的数据处理和分析。用户可以根据需要对文本进行进一步的预处理，以适应特定的分析任务，如文本分类或结构化数据提取。

背景与挑战

背景概述

InformesBanRep数据集由Muvdi Yabra和Javier Gómez于2024年创建，专注于哥伦比亚共和国银行的货币政策报告。该数据集的核心研究问题在于如何从PDF文件中提取并保留原始报告的结构化信息，特别是文本、标题、子标题以及图像和表格的指示。这一研究对经济学领域具有重要意义，因为它为政策分析、经济趋势预测以及历史数据分析提供了丰富的文本资源。通过使用Docling工具从PDF中提取文本，并采用Markdown格式保留文档结构，该数据集为研究人员提供了一个高效且灵活的工具，以深入探索哥伦比亚的货币政策及其影响。

当前挑战

InformesBanRep数据集在构建过程中面临多项挑战。首先，从PDF文件中提取文本并保留其结构化信息是一项技术难题，尤其是在处理复杂的文档布局时。其次，数据集中包含的图像和表格信息尚未完全整合，未来需要进一步处理以实现全面的文档分析。此外，尽管数据集目前仅包含104条记录，但其扩展性和多样性仍有待提升，以满足更广泛的研究需求。最后，数据集的文本预处理步骤完全由用户决定，这虽然提供了灵活性，但也增加了使用门槛，要求用户具备一定的文本处理能力。

常用场景

经典使用场景

InformesBanRep数据集的经典使用场景主要集中在经济学领域的文本分析与政策研究。通过分析哥伦比亚共和国银行发布的货币政策报告，研究者可以深入探讨货币政策的变化趋势及其对经济的影响。该数据集的文本以Markdown格式保存，保留了文档的结构信息，如标题和子标题，这为文本分类和主题建模提供了丰富的上下文信息。

衍生相关工作

基于InformesBanRep数据集，研究者们已经开展了多项相关工作，包括货币政策文本的情感分析、主题建模以及时间序列分析。这些研究不仅深化了对货币政策文本的理解，还为经济学领域的文本挖掘技术提供了新的应用案例。此外，该数据集还激发了关于如何从非结构化数据中提取有价值信息的讨论，推动了数据科学在经济学中的应用。

数据集最近研究