copenlu/wiki-stance
收藏数据集卡片 - Wiki-Stance
数据集详情
数据集描述
Wiki-Stance 数据集是在 EMNLP 2023 论文 "Why Should This Article Be Deleted? Transparent Stance Detection in Multilingual Wikipedia Editor Discussions" 中引入的。
数据集来源
- 仓库: https://github.com/copenlu/wiki-stance
- 论文: https://aclanthology.org/2023.emnlp-main.361/
列名描述
- title - 被考虑删除的维基百科页面的标题
- username - 评论作者的维基百科用户名
- timestamp - 评论的时间戳
- decision - 评论在原始语言中的立场标签
- comment - 维基百科编辑者关于删除讨论的评论文本
- topic - 立场任务的主题(通常是“删除[标题]”)
- en_label - Decision 的英文翻译
- policy - 与评论相关的维基百科政策代码
- policy_title - 与评论相关的维基百科政策标题
- policy_index - 维基百科政策的索引(特定于我们的数据集)
用途
该数据集旨在通过立场检测和支持内容审核,预测维基百科中三种语言的删除讨论中的政策。
直接用途
该数据集可用于讨论中的立场检测,以支持内容审核,并预测引用预定义标准和指南的社区中的政策。该数据集尚未在维基百科以外的环境中进行测试,但可能有助于大规模内容审核。它还可用于透明立场检测,即参照政策的立场检测,应用范围超过维基百科。
数据集创建
源数据
该数据集基于维基百科的删除讨论,涵盖三种语言(英语、德语、土耳其语)从2005年(土耳其语为2006年)到2022年。
数据收集和处理
我们通过各自的 MediaWiki API 识别并检索英语、德语和土耳其语维基百科的删除讨论存档页面。从这些页面中,我们选择提及维基百科页面的评论,这些评论通常指政策或政策缩写。如果政策缩写链接到政策页面,Wikimedia API 会解析并返回实际的政策或维基百科页面标题。对于每种语言,我们通过 Wikimedia API 检索完整的政策页面,手动选择实际的政策页面,并丢弃其他维基百科页面。我们进一步丢弃在各自语言删除讨论中提及不频繁的政策。
为了将具有相同或相似含义的子政策或主政策的子类别合并到主政策中,我们根据子政策在政策页面文本中链接到主政策的情况进行合并。大多数评论只涉及一个政策,我们通过选择第一个提及的政策来保持每个评论只有一个政策。我们进一步使用正则表达式从评论中删除所有政策提及,这通常会破坏句子的语法性,但有必要防止标签信息的泄露。
立场标签(保留、删除、合并和评论)可以用不同的形式或拼写方式表达。我们手动识别标签可能表达的不同方式,并将它们聚合到四个标准标签中。
我们通过(半自动化)将三种语言的政策链接到相应的英语政策(如果德语或土耳其语政策存在)来创建多语言数据集。我们使用跨语言链接进行此操作。
数据集被分为训练/测试/开发集,其中英语和德语的分割为80%/15%/5%,但由于土耳其语评论数量较少,我们决定调整土耳其语的分割,至少有200个测试示例。
源数据生产者
数据创建者是各自维基百科语言中参与删除讨论的维基百科编辑者。
标注过程
标注是基于讨论评论创建的。立场标签是基于编辑者在讨论中在其评论中表达的标签创建的,政策标签也是如此。
标注者
因此,编辑者可以被视为标注者。
个人和敏感信息
从在线社区收集的所有数据都应被视为敏感信息,特别是为了保护编辑者的隐私。
偏差、风险和局限性
社区数据应受到尊重,并小心处理,以免超出创建者的意愿。该数据集提供的数据显示了社区讨论的快照,因为它只关注提及政策的评论(英语约为20%,德语和土耳其语约为2%)。
建议
我们不鼓励识别编辑者或以任何形式在个人层面上处理编辑者信息的工作。
引用
如果您发现我们的数据集有帮助,请在您的工作中引用我们使用以下引用:
@inproceedings{kaffee-etal-2023-article, title = "Why Should This Article Be Deleted? Transparent Stance Detection in Multilingual {W}ikipedia Editor Discussions", author = "Kaffee, Lucie-Aim{e}e and Arora, Arnav and Augenstein, Isabelle", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.361", doi = "10.18653/v1/2023.emnlp-main.361", pages = "5891--5909", abstract = "The moderation of content on online platforms is usually non-transparent. On Wikipedia, however, this discussion is carried out publicly and editors are encouraged to use the content moderation policies as explanations for making moderation decisions. Currently, only a few comments explicitly mention those policies {--} 20{%} of the English ones, but as few as 2{%} of the German and Turkish comments. To aid in this process of understanding how content is moderated, we construct a novel multilingual dataset of Wikipedia editor discussions along with their reasoning in three languages. The dataset contains the stances of the editors (keep, delete, merge, comment), along with the stated reason, and a content moderation policy, for each edit decision. We demonstrate that stance and corresponding reason (policy) can be predicted jointly with a high degree of accuracy, adding transparency to the decision-making process. We release both our joint prediction models and the multilingual content moderation dataset for further research on automated transparent content moderation.", }




