five

马来西亚选举语料库(MECo)

收藏
arXiv2025-05-10 更新2025-05-14 收录
下载链接:
https://electiondata.my/
下载链接
链接失效反馈
官方服务:
资源简介:
马来西亚选举语料库(MECo)是一个开放获取的面板数据库,涵盖了自1955年至今的所有联邦和州级大选,以及自2008年以来的补选。MECo包括近10,000场竞选的候选人和选区级别结果,跨越了七十年,并使用唯一标识符对候选人、政党和选区进行了标准化。数据库还提供了选民规模、投票率、废票和未归还选票的汇总统计数据。这是关于马来西亚选举的最精心策划的公开数据,将为研究、数据新闻和公民参与开辟新的机会。

The Malaysian Election Corpus (MECo) is an open-access panel database covering all federal and state-level general elections since 1955 to the present, as well as by-elections since 2008. MECo includes candidate and constituency-level results for nearly 10,000 campaigns, spans seven decades, and standardizes candidates, political parties, and constituencies using unique identifiers. The database also provides summary statistics including voter pool size, voter turnout, invalid ballots, and unreturned ballots. This is the most carefully curated public dataset on Malaysian elections, which will open up new opportunities for research, data journalism, and civic engagement.
提供机构:
马来西亚选举委员会(翻译成中文)
创建时间:
2025-05-10
搜集汇总
数据集介绍
main_image_url
构建方式
马来西亚选举语料库(MECo)的构建基于三个主要数据来源:物理选举后报告、官方公报的选举结果以及选举委员会(EC)发布的数字结果。为确保数据的准确性和可靠性,研究团队放弃了光学字符识别(OCR)和PDF解析工具,转而采用手工转录的方式,尽管这种方法耗时较多,但显著降低了错误率,平均错误率仅为0.84%。数据集涵盖了1955年至2025年间的所有联邦和州级大选,以及2008年以来的补选,总计记录了25,552名候选人和9,705场选举竞赛。
特点
MECo数据集的特点在于其全面性和标准化处理。它不仅提供了候选人和选区级别的详细选举结果,还包括了选民规模、投票率、无效票等关键统计指标。此外,数据集通过独特的标识符(UID)实现了对候选人、政党和选区的跨时间追踪,这对于研究马来西亚复杂的政治演变尤为重要。数据集还支持地理空间分析,能够追踪选区名称和边界的变化,为政治科学研究提供了丰富的数据支持。
使用方法
MECo数据集适用于多种研究场景,包括选举研究、政治科学和公共政策分析。研究人员可以利用其标准化的数据模式和查找表,轻松进行跨时段和跨区域的比较分析。数据集还支持与其他数据源的集成,例如通过添加候选人的 demographic 特征或政党的联盟信息来扩展分析维度。此外,数据集提供了详细的代码和脚本,帮助用户快速生成交互式数据可视化,进一步提升了其在学术和新闻领域的实用价值。
背景与挑战
背景概述
马来西亚选举语料库(MECo)由Thevesh Thevananthan于2025年创建,旨在填补马来西亚选举研究领域长期存在的高质量开放数据空白。该数据集涵盖了自1955年至2025年的联邦和州级大选结果,以及2008年以来的补选数据,包含近10,000场选举的候选人和选区级别结果。MECo通过标准化唯一标识符(UID)对候选人、政党和选区进行追踪,为研究马来西亚动态选举历史提供了重要基础。马来西亚作为东南亚最具活力的选举体系之一,其2018年首次执政党更迭和2022年悬峙议会等事件,使得这一数据集对民主化研究具有特殊价值。
当前挑战
MECo面临的挑战主要体现在两方面:领域问题方面,马来西亚缺乏信息自由法案框架,选举委员会(EC)未发布符合最佳实践的机器可读开放数据,导致学者难以获取全面、标准化的选举数据;构建过程方面,原始数据分散在物理选举报告、政府公报和非结构化的数字仪表盘中,需人工转录近2.5万条候选人记录,且候选人姓名拼写、头衔使用的历史差异(如'Rafidah Aziz'在不同选举中的8种变体)给UID生成带来巨大挑战。此外,1969年紧急状态期间8%的数据错误率等历史数据质量问题,也增加了数据验证的复杂度。
常用场景
经典使用场景
马来西亚选举语料库(MECo)作为东南亚地区首个覆盖联邦与州级选举的高质量开放数据集,其经典使用场景聚焦于政治科学领域的纵向比较研究。该数据集通过标准化候选人、政党和选区的唯一标识符,支持学者追踪1955至2025年间马来西亚多党制下的选举动态,尤其适用于分析2018年首次政党轮替和2022年悬峙议会等历史性事件对民主化进程的影响。
实际应用
在实践层面,MECo通过配套网站ElectionData.MY降低了非技术用户的数据使用门槛,赋能数据新闻与公民监督。记者可快速提取特定选区70年间的投票趋势,公民组织则能基于标准化数据监测选举公正性。例如,该数据集曾揭示彭亨州海军邮政投票的高未返还率(30%),推动了对特殊投票机制的公共讨论。
衍生相关工作
MECo延续了国别选举数据库(如西班牙SEA、美国Precinct-Level数据库)的学术传统,并衍生出两类经典工作:一是候选人民主特征研究,通过扩展人口统计学字段分析性别、族裔对胜选的影响;二是选区地理谱系重构,如将槟城Bayan Baru与Balik Pulau选区的历史边界变化可视化。其开源架构更支持与全球选举完整性数据集(如GD-Turnout)的跨库链接。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作