bis_speeches_text_dataset

github2023-10-23 更新2024-05-31 收录

下载链接：

https://github.com/sophia-jihye/bis_speeches_text_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了从1997年到2019年9月中央银行家的演讲文本数据，这些数据从bis.org网站抓取并转换为.txt文件格式。数据集详细记录了演讲的日期、URL、标题、简短信息和内容，存储在特定的文件夹结构中。

This dataset comprises speech texts from central bankers spanning from 1997 to September 2019, which were scraped from the bis.org website and converted into .txt file format. The dataset meticulously records the date, URL, title, brief information, and content of each speech, all stored within a specific folder structure.

创建时间：

2019-10-05

原始信息汇总

数据集概述

数据集名称

Central Bankers Speeches Text Dataset

数据收集时间范围

1997年至2019年9月

数据来源

数据来源于bis.org，通过网络爬虫技术从该网站上抓取中央银行家的演讲文本数据。

数据处理流程

数据抓取：
- 从目标网页抓取PDF文件，存储于scraped_data/pdf目录。
- 抓取的元数据（日期、PDF链接、标题、演讲地点等）存储为Python字典对象，并按季度分组存储为.pkl文件于scraped_data/pkl目录。
文本提取：
- 从scraped_data/pdf目录中的PDF文件提取文本，并存储为.txt文件于scraped_data/txt目录。
- 提取的文本同时更新到最终的Python字典对象中。
数据整合：
- 将所有.pkl文件合并为一个最终的Python字典对象。
- 最终字典对象存储为scraped_data/bis_w_content_FINAL.csv和scraped_data/bis_w_content_FINAL.pkl。

数据集内容

CSV文件内容：
- key: 与scraped_data/pdf或scraped_data/txt目录内文件名匹配的键。
- date: 演讲文在目标网页上传的日期。
- pdf_url: 抓取PDF文件时访问的URL。
- title: 演讲文的标题。
- short_info: 包含演讲地点、日期等信息的简短文本。
- content: 从PDF文件中提取的演讲文本。

文件结构

主要目录：
- scraped_data/pdf: 存储抓取的PDF文件。
- scraped_data/txt: 存储从PDF文件提取的文本文件。
- scraped_data/pkl: 存储按季度分组的元数据字典对象。
- scraped_data/err: 存储处理过程中出现的错误日志。
- scraped_data/bis_w_content_FINAL.csv: 存储最终整合的数据。
- scraped_data/bis_w_content_FINAL.pkl: 存储最终整合的数据字典对象。

搜集汇总

数据集介绍

构建方式

bis_speeches_text_dataset的构建过程始于从国际清算银行（BIS）官方网站上抓取1997年至2019年9月间的中央银行家演讲文本。通过访问目标网页，抓取包含日期、PDF链接、标题及简短信息等元数据的HTML信息，并将其存储为Python字典对象。随后，这些元数据按季度分组并保存为.pkl文件。同时，抓取的PDF文件被转换为文本格式，并存储于指定目录。最终，所有数据被合并为一个完整的Python字典对象，并导出为CSV文件，以便进一步分析。

特点

该数据集的核心特点在于其全面性和细致的数据处理流程。它不仅包含了中央银行家演讲的原始PDF文件，还提供了从PDF中提取的文本内容，以及详细的元数据信息，如演讲日期、标题、演讲地点等。此外，数据集还通过分季度保存元数据和文本文件，确保了数据的可追溯性和完整性。这种结构化的数据存储方式为研究人员提供了极大的便利，使其能够轻松地进行时间序列分析或特定主题的深入研究。

使用方法

使用bis_speeches_text_dataset时，用户首先需克隆GitHub仓库并安装必要的Python包。通过修改配置文件中的参数，如抓取间隔时间和输出目录路径，用户可以根据需求定制数据抓取过程。运行主脚本时，用户可以选择抓取整个时间范围内的数据，或通过指定起始和结束年份来抓取特定时间段的数据。抓取完成后，数据集将以CSV和PKL格式保存，用户可直接加载这些文件进行数据分析或模型训练。

背景与挑战

背景概述

bis_speeches_text_dataset数据集由首尔国立大学的Jihye Park等人创建，旨在收集并整理1997年至2019年9月期间国际清算银行（BIS）网站上发布的中央银行家演讲文本。该数据集通过自动化脚本从BIS官方网站抓取PDF格式的演讲文件，并将其转换为易于分析的文本格式。这一数据集为研究货币政策、金融市场动态以及中央银行决策过程提供了宝贵的文本资源，尤其在经济学家、金融分析师和政策制定者中具有重要影响力。通过提供结构化的文本数据，该数据集支持自然语言处理、文本挖掘以及经济政策分析等领域的研究。

当前挑战

bis_speeches_text_dataset在构建过程中面临多重挑战。首先，从BIS网站抓取PDF文件并提取文本时，需处理PDF格式的多样性和复杂性，尤其是非标准格式或加密文件可能导致文本提取失败。其次，网络爬虫的稳定性问题，如网络中断或目标网站的反爬虫机制，可能导致数据抓取过程中断或数据丢失。此外，数据清洗和格式统一也是重要挑战，原始PDF文件中的表格、图表和特殊字符需经过复杂处理才能转化为干净的文本数据。最后，数据集的时间跨度较长，需确保不同年份数据的格式和内容一致性，这对后续的分析和应用提出了更高的要求。

常用场景

经典使用场景

bis_speeches_text_dataset数据集广泛应用于中央银行政策分析和经济预测领域。研究者通过分析1997年至2019年间各国中央银行官员的演讲文本，深入探讨货币政策、经济趋势以及金融市场的动态变化。这些文本数据为理解中央银行决策背后的逻辑提供了宝贵的原始材料。

衍生相关工作

基于bis_speeches_text_dataset，研究者开发了多项经典工作。例如，利用该数据集训练的文本分类模型能够自动识别政策演讲中的关键主题；此外，时间序列分析工具也被用于追踪政策语言的变化趋势。这些衍生工作不仅推动了经济学与计算机科学的交叉研究，还为政策分析提供了新的技术手段。

数据集最近研究