Malaysia Masjid Dataset
收藏github2026-05-04 更新2026-05-05 收录
下载链接:
https://github.com/abualif120/malaysia-masjid-dataset
下载链接
链接失效反馈官方服务:
资源简介:
马来西亚清真寺数据集,包含马来西亚13个州和3个联邦直辖区的6,915座清真寺和19,023座祈祷室的目录,以及一个单独的449行雪兰莪州清真寺文件,包含详细资料(容量、创始人、主持官员、日期)。数据来源于SISMIM国家门户(JAKIM)和JAIS e-Masjid目录(雪兰莪州伊斯兰部门)。以机器可读的CSV和JSON格式发布。
Malaysian Mosque Dataset contains a catalog of 6,915 mosques and 19,023 prayer halls across Malaysia’s 13 states and 3 federal territories, plus a standalone 449-row dataset for mosques in Selangor with detailed information including capacity, founders, presiding officials, and founding dates. The data is sourced from the SISMIM National Portal (JAKIM) and the JAIS e-Masjid Directory (Selangor Islamic Department), and is released in machine-readable CSV and JSON formats.
创建时间:
2026-05-04
原始信息汇总
马来西亚清真寺数据集 (Malaysia Masjid Dataset)
数据集概览
该数据集是一个结构化的马来西亚清真寺和祈祷室目录,包含 26,387 条记录,涵盖全国 13 个州和 3 个联邦直辖区。
主要数据组成
- 清真寺 (Masjid):6,915 座,来自 SISMIM 全国门户
- 祈祷室 (Surau):19,023 个,来自 SISMIM 全国门户
- 雪兰莪清真寺详情 (Selangor Detail):449 座,含详细档案字段,来自 JAIS 电子清真寺目录
数据来源
| 来源 | 机构 | 门户地址 |
|---|---|---|
| SISMIM | JAKIM(马来西亚伊斯兰发展局) | https://masjid.islam.gov.my |
| JAIS e-Masjid | 雪兰莪州伊斯兰事务局 | https://e-masjid.jais.gov.my |
数据快照日期:2026年4月3日
数据文件
三个数据集均提供 CSV 和 JSON 格式:
| 文件 | 描述 | 记录数 |
|---|---|---|
data/masjid.csv / data/masjid.json |
全国清真寺(SISMIM) | 6,915 |
data/surau.csv / data/surau.json |
全国祈祷室(SISMIM) | 19,023 |
data/selangor_detail.csv / data/selangor_detail.json |
雪兰莪清真寺详情(JAIS) | 449 |
数据模式
masjid.csv 和 surau.csv(SISMIM)
| 字段 | 类型 | 说明 |
|---|---|---|
name |
字符串 | 清真寺或祈祷室名称,保留原始大写格式 |
address |
字符串 | 邮政地址,保留原始不一致的格式 |
state |
字符串 | 马来西亚州或联邦直辖区,统一为首字母大写格式(如 Negeri Sembilan、Kuala Lumpur (FT)) |
district |
字符串 | 县区,从 SISMIM 来源转换为首字母大写 |
phone |
字符串 | 电话号码,格式不定(如 03-26937784、0135237989) |
fax |
字符串 | 传真号码,常为空 |
selangor_detail.csv(JAIS)
| 字段 | 类型 | 说明 |
|---|---|---|
masjid_id |
字符串 | JAIS 内部清真寺 ID |
name |
字符串 | 清真寺名称 |
category |
字符串 | 类别:Kariah(教区)、Jamek(主麻清真寺)、Pengurusan(管理型)、Institusi(机构型)、Diraja(皇家)、Negeri(州级) |
district |
字符串 | 雪兰莪县区(如 Petaling、Kuala Selangor) |
address |
字符串 | 邮政地址 |
phone |
字符串 | 电话号码 |
fax |
字符串 | 传真号码 |
email |
字符串 | 联系邮箱 |
website |
字符串 | 外部网站 |
founder |
字符串 | 创始方(Pengasas) |
officiated_by |
字符串 | 主持启用仪式的贵宾(Perasmi) |
date_built |
字符串 | 建造日期,格式不一(如 01-01-1987、04-10-1999) |
date_officiated |
字符串 | 启用日期 |
date_first_use |
字符串 | 首次使用日期 |
capacity |
字符串 | 容纳人数,自由文本(如 3500、400 ORANG JEMAAH) |
area |
字符串 | 建筑面积或土地面积,自由文本(如 DUA EKAR、4.7950 EKAR) |
last_updated |
字符串 | JAIS 档案最后编辑时间 |
latitude |
字符串 | 纬度(十进制度数) |
longitude |
字符串 | 经度(十进制度数) |
profile_url |
字符串 | JAIS 公开档案页面链接 |
各州清真寺数量(SISMIM)
| 州属 | 数量 |
|---|---|
| 沙巴 (Sabah) | 1,146 |
| 柔佛 (Johor) | 851 |
| 霹雳 (Perak) | 676 |
| 彭亨 (Pahang) | 665 |
| 吉兰丹 (Kelantan) | 631 |
| 吉打 (Kedah) | 605 |
| 登嘉楼 (Terengganu) | 511 |
| 砂拉越 (Sarawak) | 448 |
| 雪兰莪 (Selangor) | 448 |
| 森美兰 (Negeri Sembilan) | 304 |
| 槟城 (Penang) | 217 |
| 马六甲 (Melaka) | 209 |
| 玻璃市 (Perlis) | 106 |
| 吉隆坡 (Kuala Lumpur, FT) | 76 |
| 纳闽 (Labuan, FT) | 18 |
| 布城 (Putrajaya, FT) | 3 |
| (未知) | 1 |
各州祈祷室数量(SISMIM)
| 州属 | 数量 |
|---|---|
| 雪兰莪 (Selangor) | 2,171 |
| 霹雳 (Perak) | 2,152 |
| 吉打 (Kedah) | 2,087 |
| 柔佛 (Johor) | 2,040 |
| 登嘉楼 (Terengganu) | 1,911 |
| 彭亨 (Pahang) | 1,762 |
| 吉兰丹 (Kelantan) | 1,293 |
| 沙巴 (Sabah) | 1,227 |
| 森美兰 (Negeri Sembilan) | 1,073 |
| 砂拉越 (Sarawak) | 849 |
| 马六甲 (Melaka) | 819 |
| 吉隆坡 (Kuala Lumpur, FT) | 667 |
| 槟城 (Penang) | 564 |
| 玻璃市 (Perlis) | 214 |
| 布城 (Putrajaya, FT) | 139 |
| 纳闽 (Labuan, FT) | 51 |
| (未知) | 4 |
雪兰莪清真寺按类别分布(JAIS)
| 类别 | 数量 | 说明 |
|---|---|---|
| Kariah | 389 | 教区/社区清真寺 |
| Institusi | 19 | 机构型(大学、部委、机构) |
| Pengurusan | 16 | 管理型清真寺 |
| Jamek | 13 | 主麻日聚礼清真寺 |
| Diraja | 8 | 皇家清真寺 |
| Negeri | 4 | 州级清真寺 |
已知限制
- 数据未合并:SISMIM 提供全国范围的名称和联系信息,JAIS 提供雪兰莪州的详细档案信息,两个来源保持独立
- 自由文本字段未规范化:容量、面积、日期、电话和地址保留发布时的原始格式
- 坐标几乎缺失:449 座雪兰莪清真寺中仅 1 行包含真实经纬度
- 州名已统一:如
W.P. KUALA LUMPUR统一为Kuala Lumpur (FT) - 部分行州属未知:1 座清真寺和 4 个祈祷室缺少州属值
- 祈祷室覆盖缺口:部分地区祈祷室收录不完整
- 主键缺失:不同来源之间未进行去重处理
数据用途说明
- 许可证:CC BY 4.0(知识共享署名 4.0 国际许可)
- 适用用途:非商业研究、公民统计用途
- 不包含的内容:银行账户信息、JAIS 投诉 URL、Google Maps URL
- 隐私声明:包含公开的邮箱、电话、地址以及部分个人姓名(如创始人和主持启用贵宾),建议下游用户遵守马来西亚 PDPA 2010 相关规定
搜集汇总
数据集介绍

构建方式
马来西亚清真寺数据集整合自两大官方数据源:马来西亚伊斯兰发展署运营的全国清真寺与祈祷室信息系统,以及雪兰莪州伊斯兰事务局管理的电子清真寺名录。通过快照方式于2026年4月3日采集后,对原始数据进行系统性清洗与重组:将马来语字段名转化为英文蛇形命名法,统一州名分类标准如将'W.P. KUALA LUMPUR'标准化为'Kuala Lumpur (FT)',并将全大写地区名转换为首字母大写。同时移除银行账户号码、投诉链接及Google Maps URL等冗余或敏感字段,保留电话号码、地址及容量等自由格式字段的原始面貌。最终生成包含6,915座清真寺、19,023个祈祷室以及449座雪兰莪清真寺详细档案的三组结构化数据集,每组均以CSV与JSON双格式发布。
特点
该数据集涵盖马来西亚全部13个州及3个联邦直辖区,总计26,387条记录,是目前较为全面的宗教场所地理信息汇编。雪兰莪州子集尤为珍贵,包含了清真寺分类、建立者、主持启用者、容量、面积及多维度时间戳等丰富画像字段,但约八成坐标信息缺失。数据集忠实呈现底层源的字段异构性,未对自由文本进行数值化清洗,保留诸如'400 ORANG JEMAAH'等非标准容量描述以及多种日期格式。隐私保护方面,虽保留公开的电话、邮箱及个人姓名等联系信息,但主动移除银行账号以降低欺诈风险,并设立申诉渠道供个人要求匿名处理,在学术研究与个人隐私间寻求平衡。
使用方法
用户可通过Git克隆仓库或直接下载CSV与JSON文件获取数据。Python用户借助pandas库可轻松加载三组数据表,按'state'与'district'字段聚合分析清真寺地理分布,或通过concat操作合并清真寺与祈祷室表构建全国宗教场所统一视图。R语言用户利用readr包即可读取CSV文件进行频次统计。Shell环境下的jq工具支持对JSON文件进行高效字段筛选,如查询雪兰莪州皇室清真寺列表或筛选同时提供邮箱与网站的信息完善场所。由于国家与州级数据源模式存在差异,建议用户通过清真寺名称、地区及州份作为关联键进行跨表连接,并通过地址字段进行自主地理编码以弥补坐标缺失的限制。
背景与挑战
背景概述
马来西亚清真寺数据集(Malaysia Masjid Dataset)由研究者于2026年创建,整合自马来西亚伊斯兰发展局(JAKIM)的国家清真寺与祈祷室信息系统(SISMIM)以及雪兰莪州伊斯兰事务局(JAIS)的电子清真寺目录。该数据集收录了全国13个州及3个联邦直辖区内共计6,915座清真寺与19,023处祈祷室,并附加包含449座雪兰莪州清真寺详细档案(涵盖容量、创始人、主持落成贵宾及日期等字段)。其核心研究问题在于为宗教设施的空间分布、社区服务可达性及行政流程优化提供标准化、机器可读的结构化数据,填补了马来西亚宗教基础设施领域缺乏开放、整合数据集的空白,对城市规划、人口迁移分析及伊斯兰事务管理研究具有重要参考价值。
当前挑战
该数据集面临的挑战首先体现在领域问题的复杂性:宗教设施数据的多源异构性与动态更新需求,需协调全国与州级两大数据库的差异,例如SISMIM仅提供基础联系信息,而JAIS包含丰富属性但限于雪兰莪州,且两系统记录存在不完全重合,造成跨区域关联分析的障碍。构建过程中的具体挑战包括:上游数据格式不统一(如日期存在多种形式、容量与面积字段为自由文本)、坐标信息严重缺失(雪兰莪州449座清真寺中仅1条有效经纬度)、州名与区名需规范化处理,以及出于隐私保护考虑需移除银行账号等敏感字段并处理个人数据合规问题。此外,祈祷室覆盖存在区域不均衡性,部分县区数据明显少于实际分布,限制了数据的完整性评估。
常用场景
经典使用场景
在宗教地理学与空间数据分析领域,Malaysia Masjid Dataset为研究者提供了覆盖马来西亚全境13个州和3个联邦直辖区共计26,387座清真寺与祈祷室的详尽名录,成为探索伊斯兰宗教场所空间分布格局与区域差异的基石性资源。研究者可借助该数据集按州、县进行地理单元划分的统计特性,揭示不同行政区域间宗教设施密度的演变规律,并结合人口数据深入剖析宗教场所可达性与社区服务半径之间的耦合关系。此外,通过对比全国性SISMIM数据与雪兰莪州JAIS详细档案,学者能够构建多层级的空间分析框架,检验中央与地方宗教机构记录体系的一致性,从而推动宗教地理学方法论的创新与发展。
衍生相关工作
自发布以来,该数据集已催生出一系列值得关注的衍生研究工作。在方法论层面,研究者基于其多来源特征,开发了跨机构宗教场所记录的对齐与去重算法,解决了不同行政系统间同名清真寺的匹配难题。在应用模型方面,有学者融合该数据与马来西亚人口普查网格数据,构建起基于最近邻分析的礼拜设施可达性指数,揭示了城乡之间宗教服务获取能力的显著差异。此外,围绕雪兰莪州详细档案中的非结构化数据(如容量与面积的文本描述),自然语言处理领域的团队研发出专门的正则表达式解析与单位转换工具,实现了从自由文本到数值型指标的标准化转化。这些工作不仅深化了数据集自身的学术价值,也为同类非完全结构化宗教目录数据的处理开辟了新的技术路径。
数据集最近研究
最新研究方向
马来西亚清真寺数据集(Malaysia Masjid Dataset)的发布,为宗教地理学、城市计算与公共政策研究开辟了新的量化路径。该数据集涵盖全国13个州和3个联邦直辖区共计26,387个宗教场所(6,915座清真寺与19,023个祈祷室),并附有雪兰莪州449座清真寺的详细档案,包含容量、奠基人、主持官员等结构化字段。这一资源使得研究者能够从宏观尺度分析伊斯兰宗教设施的分布格局与可达性,结合人口密度、交通网络等空间数据,评估宗教服务覆盖的公平性。尤为前沿的是,数据集对隐私字段的审慎处理——刻意剔除银行账号等敏感信息——为开放数据实践提供了伦理范本,呼应了2024年马来西亚《个人数据保护法》修订后对公共数据发布的合规要求。雪兰莪州详细档案中容量、面积等自由文本字段的保留,更激励自然语言处理与实体抽取技术的创新应用,以构建标准化的设施属性知识图谱。该数据集填补了东南亚宗教基础设施空间数据的空白,有望推动马来西亚智慧国家愿景(如MyDigital战略)中宗教事务数字化转型的实证研究。
以上内容由遇见数据集搜集并总结生成



