five

马来西亚选举语料库(MECo)|政治选举数据集|数据新闻数据集

收藏
arXiv2025-05-10 更新2025-05-14 收录
政治选举
数据新闻
下载链接:
https://electiondata.my/
下载链接
链接失效反馈
资源简介:
马来西亚选举语料库(MECo)是一个开放获取的面板数据库,涵盖了自1955年至今的所有联邦和州级大选,以及自2008年以来的补选。MECo包括近10,000场竞选的候选人和选区级别结果,跨越了七十年,并使用唯一标识符对候选人、政党和选区进行了标准化。数据库还提供了选民规模、投票率、废票和未归还选票的汇总统计数据。这是关于马来西亚选举的最精心策划的公开数据,将为研究、数据新闻和公民参与开辟新的机会。
提供机构:
马来西亚选举委员会(翻译成中文)
创建时间:
2025-05-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
马来西亚选举语料库(MECo)的构建基于三个主要数据来源:物理选举后报告、官方公报的选举结果以及选举委员会(EC)发布的数字结果。为确保数据的准确性和可靠性,研究团队放弃了光学字符识别(OCR)和PDF解析工具,转而采用手工转录的方式,尽管这种方法耗时较多,但显著降低了错误率,平均错误率仅为0.84%。数据集涵盖了1955年至2025年间的所有联邦和州级大选,以及2008年以来的补选,总计记录了25,552名候选人和9,705场选举竞赛。
特点
MECo数据集的特点在于其全面性和标准化处理。它不仅提供了候选人和选区级别的详细选举结果,还包括了选民规模、投票率、无效票等关键统计指标。此外,数据集通过独特的标识符(UID)实现了对候选人、政党和选区的跨时间追踪,这对于研究马来西亚复杂的政治演变尤为重要。数据集还支持地理空间分析,能够追踪选区名称和边界的变化,为政治科学研究提供了丰富的数据支持。
使用方法
MECo数据集适用于多种研究场景,包括选举研究、政治科学和公共政策分析。研究人员可以利用其标准化的数据模式和查找表,轻松进行跨时段和跨区域的比较分析。数据集还支持与其他数据源的集成,例如通过添加候选人的 demographic 特征或政党的联盟信息来扩展分析维度。此外,数据集提供了详细的代码和脚本,帮助用户快速生成交互式数据可视化,进一步提升了其在学术和新闻领域的实用价值。
背景与挑战
背景概述
马来西亚选举语料库(MECo)由Thevesh Thevananthan于2025年创建,旨在填补马来西亚选举研究领域长期存在的高质量开放数据空白。该数据集涵盖了自1955年至2025年的联邦和州级大选结果,以及2008年以来的补选数据,包含近10,000场选举的候选人和选区级别结果。MECo通过标准化唯一标识符(UID)对候选人、政党和选区进行追踪,为研究马来西亚动态选举历史提供了重要基础。马来西亚作为东南亚最具活力的选举体系之一,其2018年首次执政党更迭和2022年悬峙议会等事件,使得这一数据集对民主化研究具有特殊价值。
当前挑战
MECo面临的挑战主要体现在两方面:领域问题方面,马来西亚缺乏信息自由法案框架,选举委员会(EC)未发布符合最佳实践的机器可读开放数据,导致学者难以获取全面、标准化的选举数据;构建过程方面,原始数据分散在物理选举报告、政府公报和非结构化的数字仪表盘中,需人工转录近2.5万条候选人记录,且候选人姓名拼写、头衔使用的历史差异(如'Rafidah Aziz'在不同选举中的8种变体)给UID生成带来巨大挑战。此外,1969年紧急状态期间8%的数据错误率等历史数据质量问题,也增加了数据验证的复杂度。
常用场景
经典使用场景
马来西亚选举语料库(MECo)作为东南亚地区首个覆盖联邦与州级选举的高质量开放数据集,其经典使用场景聚焦于政治科学领域的纵向比较研究。该数据集通过标准化候选人、政党和选区的唯一标识符,支持学者追踪1955至2025年间马来西亚多党制下的选举动态,尤其适用于分析2018年首次政党轮替和2022年悬峙议会等历史性事件对民主化进程的影响。
实际应用
在实践层面,MECo通过配套网站ElectionData.MY降低了非技术用户的数据使用门槛,赋能数据新闻与公民监督。记者可快速提取特定选区70年间的投票趋势,公民组织则能基于标准化数据监测选举公正性。例如,该数据集曾揭示彭亨州海军邮政投票的高未返还率(30%),推动了对特殊投票机制的公共讨论。
衍生相关工作
MECo延续了国别选举数据库(如西班牙SEA、美国Precinct-Level数据库)的学术传统,并衍生出两类经典工作:一是候选人民主特征研究,通过扩展人口统计学字段分析性别、族裔对胜选的影响;二是选区地理谱系重构,如将槟城Bayan Baru与Balik Pulau选区的历史边界变化可视化。其开源架构更支持与全球选举完整性数据集(如GD-Turnout)的跨库链接。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

农业农作物生长全周期数据集

农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据,实现农业生产的精准化管理和可持续发展。

浙江大数据交易服务平台 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录