Conflicting Birthdates across Wikipedias
收藏github2022-12-30 更新2024-05-31 收录
下载链接:
https://github.com/google/wikiloop-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了不同语言版本的维基百科中同一人物生日冲突的信息,旨在帮助维基百科社区识别和纠正这些错误。
This dataset contains information on conflicting birth dates for the same individuals across different language versions of Wikipedia, aiming to assist the Wikipedia community in identifying and correcting these discrepancies.
创建时间:
2018-08-31
原始信息汇总
数据集概述
数据集名称
Conflicting Birthdates across Wikipedias
数据集内容
该数据集包含了在不同语言版本的Wikipedia中,同一人物出生日期存在冲突的信息。这些冲突可能由于时区、日历系统或其他原因导致。
数据集目的
旨在帮助Wikipedia社区识别和纠正可能存在的出生日期错误,提高Wikipedia数据的质量。
数据集使用建议
- 手动修正错误数据。
- 开发机器人程序进行大规模数据修正。
- 识别易受破坏的页面。
数据集状态
目前处于测试阶段,将持续改进数据的精确度和召回率。
版权许可
本数据集遵循CC BY-SA 3.0许可。
搜集汇总
数据集介绍

构建方式
该数据集通过处理维基百科多语言版本中的公开内容,利用大数据管道技术,识别出同一人物在不同语言版本中出生日期的冲突信息。数据构建过程中,严格遵守维基百科社区规则,确保不直接修改或写入维基百科内容,仅基于现有公开数据进行处理和分析。
特点
数据集的核心特点在于其聚焦于维基百科多语言版本中同一人物出生日期的冲突问题,揭示了数据不一致性。数据集不仅展示了冲突的具体日期差异,还指出了可能的数据错误来源,如时区差异、日历系统不同等。此外,数据集以开放许可发布,便于社区进一步研究和应用。
使用方法
该数据集可用于多种场景,如手动修正维基百科中的错误信息、开发自动化工具进行批量修正,或识别易受破坏的页面。用户可通过讨论页与开发团队交流,提出改进建议或反馈使用体验。数据集以CC BY-SA 3.0许可发布,允许用户自由使用、修改和分享,前提是遵循相同的许可条款。
背景与挑战
背景概述
在开放知识生态系统中,维基百科作为全球最大的多语言在线百科全书,其数据的准确性和一致性至关重要。然而,由于不同语言版本的维基百科由不同的编辑社区维护,同一人物的出生日期在不同语言版本中可能存在不一致的情况。为了解决这一问题,Google的WikiKnowledge团队于近期发布了名为“Conflicting Birthdates across Wikipedias”的数据集。该数据集由Victor及其团队基于维基百科公开内容构建,旨在通过大数据技术识别不同语言版本中同一人物出生日期的冲突。这一数据集的发布不仅有助于提升维基百科的数据质量,也为编辑社区提供了新的工具来识别和修正数据错误。
当前挑战
尽管该数据集为维基百科的数据一致性提供了重要支持,但其构建和应用过程中仍面临诸多挑战。首先,数据集的构建依赖于跨语言链接,而这些链接可能错误地将不同人物关联在一起,导致出生日期的误判。其次,不同语言版本中使用的时区和历法系统差异也可能引入数据错误。此外,数据集的应用场景较为复杂,编辑社区需要决定如何利用这些数据进行手动或自动化修正,同时还需考虑如何识别易受破坏的页面。尽管数据集目前仍处于测试阶段,但其在提升维基百科数据质量方面的潜力已初步显现。
常用场景
经典使用场景
在跨语言维基百科内容的质量控制中,'Conflicting Birthdates across Wikipedias'数据集被广泛应用于检测和纠正不同语言版本中同一人物的出生日期不一致问题。通过分析这些冲突数据,研究人员和维基百科编辑者能够识别出潜在的错误源,进而提升数据的准确性和一致性。
解决学术问题
该数据集解决了跨语言信息一致性验证的学术难题,特别是在多语言环境下,如何确保同一实体的信息在不同语言版本中的一致性。通过提供冲突的出生日期数据,研究者可以深入探讨信息传播中的误差来源,进而提出改进数据采集和处理的策略。
衍生相关工作
基于此数据集,已经衍生出多项相关研究和工作,包括开发更高效的数据清洗算法、构建跨语言信息一致性验证框架,以及研究多语言环境下的信息传播模式。这些工作不仅提升了维基百科的数据质量,也为其他多语言知识库的建设提供了宝贵的经验和工具。
以上内容由遇见数据集搜集并总结生成



