buildcanada-2025

Hugging Face2025-04-23 更新2025-04-24 收录

下载链接：

https://huggingface.co/datasets/jevon/buildcanada-2025

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含了2025年加拿大联邦选举中各位候选人所作的竞选承诺，数据以markdown文件格式存储。数据集共包含2位候选人的1086项承诺，分为227个承诺组。数据集分为两个目录，一个是每位候选人的承诺文件，另一个是按承诺组分类的文件，每个文件中包含相关的承诺和引用。该数据集仅供研究和教育使用。

创建时间：

2025-04-23

搜集汇总

数据集介绍

构建方式

在政治信息学领域，buildcanada-2025数据集系统性地收录了2025年加拿大联邦选举期间候选人的竞选承诺。该数据集采用层级化架构，将原始竞选资料转化为结构化数据，通过候选人目录存储个体政见文件，承诺组目录则按主题分类整合相关政见及引用来源。数据采集过程严格遵循政治文献的完整性原则，最终形成包含2位候选人、1133项具体承诺和233个主题分类的研究级语料库。

特点

作为政治承诺分析的专项语料，该数据集展现出鲜明的领域特征。其核心价值在于完整保留了候选人原始承诺的语义细节，同时通过主题分组实现多维度的政策对比研究。数据规模虽精炼但覆盖全面，每个承诺组都附带可验证的引用来源，为选举政治研究提供了兼具广度和深度的分析基础。独特的markdown格式设计既确保机器可读性，又维持了政治文本的原生表达特征。

使用方法

研究者可通过两种路径利用该数据集：基于候选人维度追踪个体政策主张的完整性，或通过承诺组维度开展跨党派政策比较研究。数据文件采用标准化命名体系，候选人目录以‘姓名_党派’格式存储，承诺组目录则按政策领域分类。建议结合自然语言处理技术进行政策主题建模，或采用话语分析方法研究承诺文本的修辞特征。使用前需注意数据仅限研究用途的许可限制。

背景与挑战

背景概述

BuildCanada 2025数据集聚焦于加拿大联邦选举的政治承诺分析领域，由BuildCanada研究团队于2025年创建。该数据集系统收录了1133条来自2位候选人的竞选承诺，并按照233个主题组进行结构化整理。作为政治文本挖掘领域的新型语料库，其核心价值在于为选举承诺的可视化分析、政策立场量化研究以及选民行为预测等方向提供了数据支撑。该资源的发布填补了加拿大政治生态研究中细粒度承诺文本库的空白，对计算社会科学与政治学的跨学科研究具有显著意义。

当前挑战

在解决选举承诺文本结构化分析这一领域问题时，数据集面临三大核心挑战：多源异构政治文本的语义标准化处理需要克服口语化表达与政策术语的混合使用；承诺条款间的逻辑关联建模需解决跨主题政策条文的指代消解问题；动态选举环境下实时数据更新的时效性要求与人工核验成本存在矛盾。数据构建过程中，研究团队需平衡文本采集的全面性与隐私合规要求，同时设计兼顾机器可读性与政治学研究者需求的元数据标注体系，这对自然语言处理技术与政治学领域知识的融合提出了较高要求。

常用场景

经典使用场景

在政治科学与公共政策研究领域，buildcanada-2025数据集为分析加拿大联邦选举候选人的竞选承诺提供了结构化数据支持。研究者可通过文本挖掘技术，系统性地考察不同政党或候选人在政策取向上的差异，揭示竞选语言中的高频议题与潜在意识形态倾向。该数据集特别适用于比较政治学研究，能够纵向追踪政策承诺的演变轨迹。

解决学术问题

该数据集有效解决了选举研究中政策承诺量化分析的难题。传统研究常受限于非结构化文本数据，而本数据集通过标准化的承诺分类与引用体系，使研究者能够精确测量承诺的具体性、可行性及创新性。这种结构化处理为验证竞选承诺与执政表现的关联性研究提供了新的实证基础，推动了政治传播学与问责制理论的交叉发展。

衍生相关工作

基于该数据集已催生多项创新研究，包括采用BERT模型的政策立场自动分类系统、结合社会经济指标的承诺兑现预测框架等。其中最具影响力的是McGill大学开发的PromiseTracker平台，该系统通过语义相似度算法实时比对竞选承诺与立法提案，为政治问责研究设立了新的技术标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集