US Cities Wikipedia Dataset
收藏github2023-12-13 更新2024-05-31 收录
下载链接:
https://github.com/avivamunshi/BiasCheckCityWiki
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含美国各州城市的Wikipedia文章,用于探索数据中的偏见。
This dataset comprises Wikipedia articles on cities across various states in the United States, intended for exploring biases within the data.
创建时间:
2023-10-17
原始信息汇总
数据集概述
数据集名称
- BiasCheckCityWiki
目标
- 探索数据偏差,特别是使用美国各州城市维基百科文章的数据集。
- 结合维基百科文章数据、美国州人口数据,并利用ORES机器学习服务估计文章质量。
数据来源和许可
- Wikipedia Articles: 通过MediaWiki REST API访问。
- US Census Data: 来自美国人口普查局。
- Regional Division Data: 由美国人口普查局定义。
数据集文件
- US Cities Wikipedia Dataset:
us_cities_by_state_SEPT.2023.csv - US Census Bureau Population Data:
NST-EST2022-POP.xlsx - US Census Bureau Regional Division Data:
US States by Region - US Census Bureau.xlsx
数据处理
- 使用MediaWiki REST API访问维基百科页面信息。
- 利用ORES API获取文章质量评分。
- 合并数据集并标准化数据。
- 进行数据分析,计算每人口的文章数量和高质量文章数量。
数据输出文件
article_1.csv: 包含维基百科文章数据。quality_1.csv: 包含文章质量评分。wp_scored_city_articles_by_state.csv: 合并数据集,包含州、地区划分、人口、文章标题、修订ID和文章质量。
分析结果
- Top 10 US states by coverage:
analysis_1.csv - Bottom 10 US states by coverage:
analysis_2.csv - Top 10 US states by high quality:
analysis_3.csv - Bottom 10 US states by high quality:
analysis_4.csv - Census divisions by total coverage:
analysis_5.csv - Census divisions by high quality coverage:
analysis_6.csv
研究影响
- 预期偏差包括编辑偏差和语言偏差。
- 数据处理和分析中发现太平洋地区文章数量较少。
- 结果表明,使用维基百科作为数据源时,需注意数据完整性和可能的偏差。
数据集增强建议
- 结合外部数据源,如人口普查记录、学术出版物和政府文档,以提供更多背景信息和验证。
- 根据地区参数如人口密度或特定地区特征,对数据进行归一化处理。
搜集汇总
数据集介绍

构建方式
US Cities Wikipedia Dataset的构建过程主要依赖于多源数据的整合与处理。首先,通过MediaWiki REST API获取了美国各州城市的维基百科文章数据,并结合美国人口普查局提供的州人口数据和区域划分数据。随后,利用ORES机器学习服务对维基百科文章的质量进行评估,生成质量评分。最终,通过数据标准化和合并,形成了包含州、区域划分、人口、文章标题、修订ID及文章质量评分的综合数据集。
特点
该数据集的特点在于其多维度的数据整合与深度分析能力。它不仅涵盖了美国各州的城市维基百科文章,还结合了人口数据和区域划分信息,提供了丰富的上下文背景。此外,通过ORES API生成的文章质量评分,使得研究者能够对文章的内容质量进行量化分析。数据集还特别关注了文章覆盖率与人口比例的关系,为研究维基百科内容的地域分布和编辑倾向提供了有力支持。
使用方法
使用该数据集时,研究者可以通过加载CSV文件直接访问处理后的数据。数据集中的字段包括州名、区域划分、人口、文章标题、修订ID及质量评分,便于进行多维度分析。研究者可以基于这些数据计算每州的人均文章覆盖率或高质量文章比例,并通过分析结果探索维基百科内容的地域分布特征。此外,数据集还提供了按州和区域划分的排名结果,便于快速定位研究重点。
背景与挑战
背景概述
US Cities Wikipedia Dataset 是由华盛顿大学数据科学硕士课程中的DATA 512课程项目所创建,旨在通过分析美国各州城市的维基百科文章,探讨数据中的偏见问题。该数据集结合了维基百科文章、美国人口普查数据以及区域划分数据,并利用ORES机器学习服务评估文章质量。项目由Dr. David W. McDonald等人主导,数据来源包括MediaWiki REST API、美国人口普查局等,创建时间为2023年8月。该数据集为研究维基百科内容覆盖与质量分布提供了重要基础,尤其在城市信息覆盖与编辑偏见分析方面具有显著影响力。
当前挑战
该数据集在构建过程中面临多重挑战。首先,维基百科文章的编辑偏见问题显著,编辑者的兴趣与偏好可能导致某些城市或主题的文章质量评估存在主观性,进而影响数据分析的客观性。其次,数据完整性存在缺陷,部分州(如内布拉斯加和康涅狄格)的维基百科内容未能成功抓取,导致数据缺失。此外,语言偏见也可能影响数据覆盖范围,英语等广泛使用语言的维基百科文章可能比其他语言的文章更为详尽。最后,数据整合与标准化过程中,如何有效结合外部数据源(如人口普查数据)以补充维基百科内容的不足,也是研究中的一大挑战。
常用场景
经典使用场景
US Cities Wikipedia Dataset 的经典使用场景主要集中在对美国各州城市的维基百科文章进行质量评估和覆盖率分析。通过结合维基百科文章、美国各州人口数据以及区域划分数据,研究者可以利用该数据集进行城市信息的全面分析,尤其是在评估文章质量与人口覆盖率之间的关系时,该数据集提供了丰富的数据支持。
实际应用
在实际应用中,US Cities Wikipedia Dataset 可用于城市规划、文化研究以及教育资源分配等领域。例如,城市规划者可以通过分析城市相关文章的数量和质量,了解公众对不同城市的关注度,从而优化资源配置。此外,教育机构可以利用该数据集评估不同地区的知识覆盖情况,制定更具针对性的教育政策。
衍生相关工作
基于该数据集,许多经典研究工作得以展开,例如利用机器学习模型预测维基百科文章的质量,或通过数据融合技术将维基百科数据与其他公共数据集结合,以增强分析的深度和广度。此外,该数据集还推动了关于数据偏见和内容多样性的研究,为后续的学术探索提供了重要的数据基础。
以上内容由遇见数据集搜集并总结生成



