Wikipedia Deletion Debates Corpus

github2023-09-11 更新2024-05-31 收录

下载链接：

https://github.com/emayfield/AFD_Decision_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Wikipedia的*Articles for Deletion*编辑辩论的所有记录的标记和结构化JSON副本，涵盖了从2005年1月1日至2018年12月31日的所有辩论。数据集总大小超过400,000次辩论，包含超过300万次投票和评论。

This dataset comprises a labeled and structured JSON replica of all records from Wikipedia's *Articles for Deletion* editorial debates, spanning from January 1, 2005, to December 31, 2018. The dataset encompasses over 400,000 debates, including more than 3 million votes and comments.

创建时间：

2019-06-04

原始信息汇总

数据集概述

数据集名称

Wikipedia Deletion Debates Corpus

数据集内容

包含从2005年1月1日至2018年12月31日的所有Wikipedia Articles for Deletion 编辑辩论的标记和结构化JSON副本。
总数据集大小超过40万次辩论，包含超过300万次投票和评论。

数据集维护者

主要维护者联系信息: Elijah Mayfield, elijah@cmu.edu

数据集版本

版本1.0: 首次完整版本，用于CSCW 2019论文。
版本0.1: 初步版本，用于NAACL 2019研讨会论文。

数据格式

数据集分为四个主要部分：Discussions, Users, Outcomes, 和 Contributions。
每个部分包含数千个子元素，每个子元素代表数据集中的一个实体，具有唯一的九位数ID。

数据集文件

初始下载大小约为1.5GB。
提供Pandas直接下载链接，方便直接加载数据。

数据集使用

推荐使用python3 quickstart.py命令下载和初始化数据集。
提供不同版本的代码和数据文件，用于复现CSCW 2019和NAACL 2019研讨会的研究结果。

引用信息

使用以下Bibtex条目引用此数据集：

@article{mayfield2019, title={Analyzing Wikipedia Deletion Debates with a Group Decision-Making Forecast Model}, author={Mayfield, Elijah and Black, Alan W}, journal={Proceedings of the ACM on Human-Computer Interaction}, volume={3}, number={CSCW}, pages={206}, publisher={ACM}, year={2019} }

搜集汇总

数据集介绍

构建方式

Wikipedia Deletion Debates Corpus 数据集的构建基于维基百科的“文章删除讨论”编辑辩论，涵盖了2005年1月1日至2018年12月31日期间的所有辩论。数据集以JSON格式结构化存储，包含超过40万条辩论记录和300多万条投票与评论。每条记录均通过唯一九位数ID进行标识，并分为四个主要类别：讨论、用户、结果和贡献。每个类别下包含数千个子元素，详细记录了辩论的各个方面。

特点

该数据集的特点在于其丰富的结构和详细的元数据。每个辩论记录不仅包含讨论的标题和ID，还记录了参与用户的ID和名称，以及辩论的最终结果和投票的详细内容。结果部分通过标签和原始文本相结合的方式，提供了辩论结果的标准化描述。此外，数据集还包含了用户投票的详细理由，为研究群体决策过程提供了宝贵的数据支持。

使用方法

使用该数据集时，用户可以通过克隆GitHub仓库并运行`quickstart.py`脚本来下载数据集文件。数据集文件以JSON格式存储，用户可以通过Python脚本加载并处理这些数据。此外，数据集还提供了Pandas格式的直接下载链接，方便用户快速加载数据进行分析。对于机器学习任务，用户可以根据需要选择不同的子集进行训练和测试，数据集的结构化设计使得数据预处理和特征提取更加便捷。

背景与挑战

背景概述

Wikipedia Deletion Debates Corpus 数据集由卡内基梅隆大学的 Elijah Mayfield 和 Alan W Black 于2019年创建，旨在为研究群体决策过程提供结构化数据支持。该数据集涵盖了2005年至2018年间维基百科“文章删除讨论”中的所有辩论，包含超过40万次讨论、300万次投票和评论。通过这一数据集，研究人员能够深入分析群体决策的动态、立场分类、结果预测以及影响评估等问题。该数据集在计算社会科学和自然语言处理领域具有重要影响力，尤其在群体决策模型的研究中发挥了关键作用。

当前挑战

该数据集在构建过程中面临多重挑战。首先，数据来源的复杂性使得原始讨论数据的结构化处理变得极为困难，尤其是如何将非结构化的文本数据转化为可供分析的格式。其次，数据标注的准确性要求极高，尤其是在处理用户投票和评论时，如何确保标签的一致性和标准化是一个重要问题。此外，数据集中存在大量未注册用户和IP地址，这增加了用户身份识别的难度。最后，数据集的规模庞大，处理和分析这些数据需要高效的算法和计算资源，这对研究人员的计算能力提出了较高要求。

常用场景

经典使用场景

Wikipedia Deletion Debates Corpus 数据集广泛应用于自然语言处理（NLP）领域，尤其是在群体决策分析和立场分类任务中。该数据集包含了维基百科编辑者在“文章删除讨论”中的辩论记录，涵盖了从2005年到2018年的40万次讨论和300万次投票及评论。研究者通常利用这些数据来训练模型，预测讨论的最终结果，或分析编辑者在辩论中的立场变化。

实际应用

在实际应用中，Wikipedia Deletion Debates Corpus 数据集被用于开发自动化工具，帮助维基百科管理员更高效地处理文章删除请求。通过训练机器学习模型，系统可以自动识别讨论中的关键立场和趋势，辅助管理员做出更快速的决策。此外，该数据集还被用于教育领域，帮助学生和研究者理解在线社区中的群体决策过程。

衍生相关工作

基于该数据集，研究者已经开展了多项经典工作。例如，Elijah Mayfield 和 Alan W Black 在2019年的CSCW会议上发表的论文《Analyzing Wikipedia Deletion Debates with a Group Decision-Making Forecast Model》利用该数据集构建了群体决策预测模型，并获得了最佳论文荣誉提名。此外，该数据集还被用于NAACL 2019研讨会上的立场分类和结果预测任务，推动了自然语言处理与计算社会科学交叉领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集