World Central Bank (WCB) dataset
收藏github2025-05-16 更新2025-05-26 收录
下载链接:
https://github.com/gtfintechlab/WorldCentralBanks
下载链接
链接失效反馈官方服务:
资源简介:
该数据集系统地收集、清理并分析了1996年至2024年间25家中央银行的句子级通信,共包含380,200个句子(平均每句27.06个单词)。其中25,000个句子被标注用于三个任务(立场检测、时间分类和不确定性估计)。
The dataset systematically collects, cleans, and analyzes sentence-level communications from 25 central banks over the period of 1996 to 2024, containing a total of 380,200 sentences (with an average of 27.06 words per sentence). Among these, 25,000 sentences are annotated for three tasks (stance detection, temporal classification, and uncertainty estimation).
创建时间:
2025-05-08
原始信息汇总
World Central Banks (WCB) 数据集概述
数据集基本信息
- 数据集名称: World Central Banks (WCB)
- 作者:
- 平等第一作者: Agam Shah, Siddhant Sukhani, Huzaifa Pardawala
- 核心贡献者: Saketh Budideti, Riya Bhadani, Rudra Gopal, Siddhartha Somani, Michael Galarnyk, Rutwik Routu, Soungmin Lee
- 其他贡献者: 包括Akshar Ravichandran等15人
- 机构: 佐治亚理工学院 (Georgia Institute of Technology)
- 联系方式: {ashah482, ssukhani3, hpardawala3}@gatech.edu
- 相关链接:
- 网站: https://gcb-web-bb21b.web.app/
- 数据与模型: https://huggingface.co/gtfintechlab
- 代码: https://github.com/gtfintechlab/WorldCentralBanks
数据集统计信息
| 指标 | 数值 |
|---|---|
| 中央银行数量 | 25 |
| 时间跨度 | 1996 – 2024 |
| 爬取句子总数 | 380,200 |
| 标注句子总数 | 25,000 |
| 总词数 | 10,289,163 |
| 语料库大小 (token数) | 2,661,400 |
| 平均每年句子数 | 13,110.34 |
| 平均每句词数 | 27.06 |
模型信息
| 模型类型 | 数量/性能 |
|---|---|
| 预训练语言模型 | 7 |
| 大语言模型 | 9 |
| 最佳立场检测模型 | RoBERTa‑Large (F1: 0.740) |
| 最佳时间分类模型 | RoBERTa‑Base (F1: 0.868) |
| 最佳不确定性估计模型 | RoBERTa‑Large (F1: 0.846) |
| 基准测试实验次数 | 15,075 |
| 支持Few-shot | 是 |
| 支持Few-shot+标注指南 | 是 |
标注详情
| 标注信息 | 数值/内容 |
|---|---|
| 标注人员数量 | 104 |
| 标注指南数量 | 26 |
| 标注步骤 | 6 |
| 标注任务 | |
| 立场检测 | Hawkish, Dovish, Neutral, Irrelevant |
| 时间分类 | (Not) Forward‑looking |
| 不确定性估计 | (Un)certain |
数据集内容
- 中央银行列表: 包括美联储(FOMC)、中国人民银行(PBoC)、日本银行(BoJ)等25家全球主要中央银行
- 数据来源: 中央银行官方通讯文件(1996-2024)
- 数据格式:
- 原始数据: PDF, txt, docx
- 清洗后数据: Markdown和txt格式
- 标注数据: CSV格式
数据集获取
-
Hugging Face地址:
- 完整语料库(380k句子): https://huggingface.co/datasets/gtfintechlab/WCB_380k_sentences
- 标注数据集(25k句子): https://huggingface.co/datasets/gtfintechlab/all_annotated_sentences_25000
-
加载方式: python
加载完整语料库
dataset = load_dataset("gtfintechlab/WCB_380k_sentences")
加载标注数据集
dataset = load_dataset("gtfintechlab/all_annotated_sentences_25000", {SEED})
加载特定中央银行数据集
dataset = load_dataset("gtfintechlab/{bank_name}", {SEED})
-
可用种子: 5768, 78516, 944601
预训练模型
- 立场检测模型:
gtfintechlab/model_{bank}_stance_label - 时间分类模型:
gtfintechlab/model_{bank}_time_label - 不确定性估计模型:
gtfintechlab/model_{bank}_certainty_label
搜集汇总
数据集介绍

构建方式
World Central Bank (WCB) 数据集作为全球货币政策研究的重要语料库,其构建过程体现了严谨的系统性和科学性。研究团队从25家中央银行历时28年(1996-2024)的公开文件中,通过自动化爬取技术获取原始文档后,采用多阶段清洗流程处理了380,200个句子。为确保数据质量,团队采用分层抽样策略,从每家银行均匀抽取1,000个句子组成25,000句的标注子集,并设计六阶段标注流程:包括双盲标注、分歧解决和专家复核等环节,最终形成包含立场检测、时间分类和不确定性评估三个维度的多任务标注体系。
特点
该数据集最显著的特征在于其时空维度的广度和标注体系的深度。时间跨度上覆盖了四分之一个世纪的央行政策演变,地理分布上囊括了五大洲具有系统重要性的中央银行。在语言特征方面,平均句长27.06个单词的文本保留了政策文件的专业性和复杂性。特别值得注意的是,数据集创新性地将货币政策文本解构为hawkish/dovish立场、前瞻性表述和确定性程度三个相互正交的语义维度,这种三维标注框架为量化分析政策语言提供了多角度切入的可能。
使用方法
研究人员可通过Hugging Face平台便捷获取该数据集的三个版本:完整语料(380k句)、标注子集(25k句)以及单银行数据集。加载时支持5768、78516、944601三种随机种子确保实验可复现。对于模型应用,项目提供了基于RoBERTa等架构的预训练模型,用户可通过transformers库快速部署立场分类、时间指向判断和确定性评估三类任务。在基准测试方面,代码库包含完整的PLM和LLM评估框架,支持零样本、少样本和带标注指南的提示工程实验,用户可通过修改YAML配置文件灵活调整温度参数等超参数。
背景与挑战
背景概述
World Central Bank (WCB) 数据集由佐治亚理工学院金融科技实验室主导构建,是迄今为止最全面的货币政策语料库。该数据集汇集了1996至2024年间全球25家中央银行的公开声明,包含超过38万条句子,涵盖28年的历史数据。研究团队通过系统性地采集、清洗和分析这些文本,构建了一个多任务标注框架,重点关注货币政策立场检测、时间分类和不确定性估计三个核心维度。这一开创性工作为量化分析中央银行沟通提供了标准化工具,对金融文本挖掘、经济政策预测等领域具有重要价值。
当前挑战
构建WCB数据集面临双重挑战:在领域问题层面,中央银行的沟通往往包含隐晦的政策信号和复杂的经济术语,准确识别鹰派、鸽派等政策立场需要深厚的领域知识;在数据处理层面,原始文档格式多样(PDF、DOCX等),跨语言文本的归一化处理困难,且部分历史文档存在数字化缺失问题。此外,标注过程中需要协调104位标注者的工作,确保跨银行、跨时间段标注标准的一致性,这对质量控制提出了极高要求。
常用场景
经典使用场景
World Central Bank (WCB) 数据集在金融文本分析领域具有广泛的应用价值,尤其在货币政策解读和金融情绪分析方面表现突出。该数据集涵盖了25家中央银行1996年至2024年的38万条句子,并标注了25,000条句子用于立场检测、时间分类和不确定性估计三大任务。研究人员可以利用这一数据集训练和评估预训练语言模型(PLMs)和大语言模型(LLMs),以提升对央行政策文本的自动解析能力。
实际应用
在实际应用中,WCB 数据集可支持金融机构和政策研究机构进行自动化政策分析。例如,投资银行可利用其立场检测模型实时监测央行声明中的鹰派或鸽派倾向;宏观经济研究团队可通过时间分类模型识别政策文本的前瞻性表述;而中央银行自身可借助不确定性估计模块优化政策沟通策略,减少市场误读风险。
衍生相关工作
基于WCB数据集已衍生出多项重要研究,包括跨语言金融文本分析框架的构建、少样本学习在政策文本分类中的应用探索,以及基于注意力机制的政策语义解构模型。特别值得注意的是,该数据集推动了FinMA等专业金融语言模型的开发,并在《Central Bank Communications in the Era of AI》等研究中作为核心基准数据集被广泛引用。
以上内容由遇见数据集搜集并总结生成



