five

Wikipedia Deletion Debates Corpus

收藏
github2023-09-11 更新2024-05-31 收录
下载链接:
https://github.com/emayfield/AFD_Decision_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Wikipedia的*Articles for Deletion*编辑辩论的所有记录的标记和结构化JSON副本,涵盖了从2005年1月1日至2018年12月31日的所有辩论。数据集总大小超过400,000次辩论,包含超过300万次投票和评论。

This dataset comprises a labeled and structured JSON replica of all records from Wikipedia's *Articles for Deletion* editorial debates, spanning from January 1, 2005, to December 31, 2018. The dataset encompasses over 400,000 debates, including more than 3 million votes and comments.
创建时间:
2019-06-04
原始信息汇总

数据集概述

数据集名称

  • Wikipedia Deletion Debates Corpus

数据集内容

  • 包含从2005年1月1日至2018年12月31日的所有Wikipedia Articles for Deletion 编辑辩论的标记和结构化JSON副本。
  • 总数据集大小超过40万次辩论,包含超过300万次投票和评论。

数据集维护者

  • 主要维护者联系信息: Elijah Mayfield, elijah@cmu.edu

数据集版本

  • 版本1.0: 首次完整版本,用于CSCW 2019论文。
  • 版本0.1: 初步版本,用于NAACL 2019研讨会论文。

数据格式

  • 数据集分为四个主要部分:Discussions, Users, Outcomes, 和 Contributions
  • 每个部分包含数千个子元素,每个子元素代表数据集中的一个实体,具有唯一的九位数ID。

数据集文件

  • 初始下载大小约为1.5GB。
  • 提供Pandas直接下载链接,方便直接加载数据。

数据集使用

  • 推荐使用python3 quickstart.py命令下载和初始化数据集。
  • 提供不同版本的代码和数据文件,用于复现CSCW 2019和NAACL 2019研讨会的研究结果。

引用信息

  • 使用以下Bibtex条目引用此数据集:

@article{mayfield2019, title={Analyzing Wikipedia Deletion Debates with a Group Decision-Making Forecast Model}, author={Mayfield, Elijah and Black, Alan W}, journal={Proceedings of the ACM on Human-Computer Interaction}, volume={3}, number={CSCW}, pages={206}, publisher={ACM}, year={2019} }

搜集汇总
数据集介绍
main_image_url
构建方式
Wikipedia Deletion Debates Corpus 数据集的构建基于维基百科的“文章删除讨论”编辑辩论,涵盖了2005年1月1日至2018年12月31日期间的所有辩论。数据集以JSON格式结构化存储,包含超过40万条辩论记录和300多万条投票与评论。每条记录均通过唯一九位数ID进行标识,并分为四个主要类别:讨论、用户、结果和贡献。每个类别下包含数千个子元素,详细记录了辩论的各个方面。
特点
该数据集的特点在于其丰富的结构和详细的元数据。每个辩论记录不仅包含讨论的标题和ID,还记录了参与用户的ID和名称,以及辩论的最终结果和投票的详细内容。结果部分通过标签和原始文本相结合的方式,提供了辩论结果的标准化描述。此外,数据集还包含了用户投票的详细理由,为研究群体决策过程提供了宝贵的数据支持。
使用方法
使用该数据集时,用户可以通过克隆GitHub仓库并运行`quickstart.py`脚本来下载数据集文件。数据集文件以JSON格式存储,用户可以通过Python脚本加载并处理这些数据。此外,数据集还提供了Pandas格式的直接下载链接,方便用户快速加载数据进行分析。对于机器学习任务,用户可以根据需要选择不同的子集进行训练和测试,数据集的结构化设计使得数据预处理和特征提取更加便捷。
背景与挑战
背景概述
Wikipedia Deletion Debates Corpus 数据集由卡内基梅隆大学的 Elijah Mayfield 和 Alan W Black 于2019年创建,旨在为研究群体决策过程提供结构化数据支持。该数据集涵盖了2005年至2018年间维基百科“文章删除讨论”中的所有辩论,包含超过40万次讨论、300万次投票和评论。通过这一数据集,研究人员能够深入分析群体决策的动态、立场分类、结果预测以及影响评估等问题。该数据集在计算社会科学和自然语言处理领域具有重要影响力,尤其在群体决策模型的研究中发挥了关键作用。
当前挑战
该数据集在构建过程中面临多重挑战。首先,数据来源的复杂性使得原始讨论数据的结构化处理变得极为困难,尤其是如何将非结构化的文本数据转化为可供分析的格式。其次,数据标注的准确性要求极高,尤其是在处理用户投票和评论时,如何确保标签的一致性和标准化是一个重要问题。此外,数据集中存在大量未注册用户和IP地址,这增加了用户身份识别的难度。最后,数据集的规模庞大,处理和分析这些数据需要高效的算法和计算资源,这对研究人员的计算能力提出了较高要求。
常用场景
经典使用场景
Wikipedia Deletion Debates Corpus 数据集广泛应用于自然语言处理(NLP)领域,尤其是在群体决策分析和立场分类任务中。该数据集包含了维基百科编辑者在“文章删除讨论”中的辩论记录,涵盖了从2005年到2018年的40万次讨论和300万次投票及评论。研究者通常利用这些数据来训练模型,预测讨论的最终结果,或分析编辑者在辩论中的立场变化。
实际应用
在实际应用中,Wikipedia Deletion Debates Corpus 数据集被用于开发自动化工具,帮助维基百科管理员更高效地处理文章删除请求。通过训练机器学习模型,系统可以自动识别讨论中的关键立场和趋势,辅助管理员做出更快速的决策。此外,该数据集还被用于教育领域,帮助学生和研究者理解在线社区中的群体决策过程。
衍生相关工作
基于该数据集,研究者已经开展了多项经典工作。例如,Elijah Mayfield 和 Alan W Black 在2019年的CSCW会议上发表的论文《Analyzing Wikipedia Deletion Debates with a Group Decision-Making Forecast Model》利用该数据集构建了群体决策预测模型,并获得了最佳论文荣誉提名。此外,该数据集还被用于NAACL 2019研讨会上的立场分类和结果预测任务,推动了自然语言处理与计算社会科学交叉领域的研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作