Wiki-Reliability|维基百科数据集|内容可靠性数据集

arXiv2021-06-01 更新2024-06-21 收录

维基百科

内容可靠性

下载链接：

https://figshare.com/articles/dataset/Wiki-Reliability_A_Large_Scale_Dataset_for_Content_Reliability_on_Wikipedia/14113799

下载链接

链接失效反馈

资源简介：

Wiki-Reliability是由Wikimedia Foundation创建的大型数据集，专注于英语维基百科文章的内容可靠性问题。该数据集通过维基百科的维护模板，标注了近100万篇文章修订版本中的可靠性问题，如中立性缺失或信息矛盾等。创建过程中，研究团队选取了10个最常见的可靠性相关模板，并采用有效方法对样本进行正负标注。Wiki-Reliability旨在支持机器学习和信息检索算法的发展，以自动化方式辅助编辑者监控和提升维基百科内容质量，进而增强全球知识库的完整性。

提供机构：

Wikimedia Foundation

创建时间：

2021-05-10

AI搜集汇总

数据集介绍

构建方式

Wiki-Reliability数据集的构建基于Wikipedia的维护模板，这些模板由经验丰富的编辑用于标记内容问题，如‘非中立观点’或‘自相矛盾的文章’。通过选择Wikipedia上最常用的10个与可靠性相关的模板，研究团队提出了一种有效的方法，对近100万条Wikipedia文章修订进行正负标签标注。每个正负样本均附带完整的文章文本和来自修订元数据的20个特征，确保数据集的高质量和广泛覆盖。

特点

Wiki-Reliability数据集的显著特点在于其大规模和多样性。该数据集包含了广泛的可靠性问题标注，涵盖了从‘未引用’到‘虚假信息’等多种模板。此外，数据集不仅提供了文章的文本内容，还包含了丰富的元数据特征，如外部链接数量、引用标签等，这些特征为内容可靠性的预测提供了多维度的信息支持。

使用方法

Wiki-Reliability数据集可用于训练大规模的内容可靠性预测模型，支持自然语言处理和信息检索领域的研究。研究者可以利用该数据集进行内容可靠性预测、来源检索等下游任务。数据集的公开发布为研究人员提供了宝贵的资源，有助于推动Wikipedia内容质量监控的自动化研究，同时也为其他领域的文本可靠性分析提供了参考。

背景与挑战

背景概述

Wiki-Reliability数据集由KayYen Wong、Miriam Redi和Diego Saez-Trumper于2021年创建，旨在解决维基百科内容可靠性评估中的数据稀缺问题。维基百科作为全球最大的在线百科全书，其内容质量直接影响用户和算法的信息获取。然而，现有的自动化工具如ORES在内容可靠性监控方面仍存在局限，主要原因是缺乏大规模的标注数据。Wiki-Reliability通过利用维基百科编辑使用的模板，对近100万条维基百科文章修订进行了标注，涵盖了多种内容可靠性问题，如‘非中立观点’和‘自相矛盾的文章’。该数据集的发布不仅为机器学习和信息检索领域的研究提供了宝贵的资源，还为提升维基百科内容质量提供了新的研究方向。

当前挑战

Wiki-Reliability数据集在构建过程中面临多项挑战。首先，如何准确地从维基百科的动态修订历史中提取出具有可靠性问题的文章修订是一个复杂的过程。其次，处理恶意或错误的模板添加或移除（即破坏行为）增加了数据标注的难度。此外，尽管该数据集提供了丰富的元数据特征和全文内容，但如何有效利用这些信息进行内容可靠性预测仍是一个开放的研究问题。最后，虽然现有的元数据模型在某些任务上表现良好，但整体性能仍有提升空间，特别是在处理复杂的文本内容特征时。

常用场景

经典使用场景

在自然语言处理（NLP）和信息检索（IR）领域，Wiki-Reliability数据集被广泛用于训练和评估内容可靠性预测模型。通过分析维基百科文章的修订历史和相关元数据，研究者可以构建模型来识别和分类文章中的可靠性问题，如‘非中立观点’或‘自相矛盾’。这些模型不仅有助于自动化维基百科的内容审核，还能为其他在线信息平台的质量控制提供参考。

衍生相关工作

基于Wiki-Reliability数据集，研究者们开发了多种内容可靠性预测模型，并在多个学术会议上发表了相关研究成果。例如，一些研究利用该数据集训练深度学习模型，以提高对维基百科文章中‘非中立观点’和‘虚假信息’的检测精度。此外，该数据集还激发了关于如何扩展和适应其他语言和平台的讨论，推动了跨语言和跨平台内容可靠性研究的进展。

数据集最近研究

相关研究论文

1
Wiki-Reliability: A Large Scale Dataset for Content Reliability on WikipediaWikimedia Foundation · 2021年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集，包含超过1.84亿条推文，覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档，可以完全重新构建，包括推文元数据且无缺失推文。数据集内容丰富，涵盖多种语言，主要用于情感分析和文本分类等任务。创建过程中，研究团队精心筛选了表情符号和表情，确保数据集的质量和多样性。该数据集的应用领域广泛，旨在解决社交媒体情感表达的长期变化问题，特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

arXiv 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。