WETBench

Hugging Face2025-05-05 更新2025-05-06 收录

下载链接：

https://huggingface.co/datasets/cs928346/WETBench

下载链接

链接失效反馈

官方服务：

资源简介：

WETBench数据集在发布前进行了清洗，以确保数据质量。数据集包含WikiPS部分，其中包含段落数据和摘要数据。此外，还有WETBench MGT部分。具体的数据字段和大小没有在README中说明。

创建时间：

2025-04-30

原始信息汇总

WETBench数据集概述

基本信息

许可证: cc-by-nc-sa-4.0

数据集组成

WikiPS
- 包含段落(Paragraphs)和摘要(Summaries)两部分
WETBench MGT
- 具体内容未详细说明

数据特点

数据收集时间早于2022年11月30日(ChatGPT公开发布日期)
经过过滤步骤确保数据不受污染

搜集汇总

数据集介绍

构建方式

在维基百科知识完整性面临机器生成文本挑战的背景下，WETBench通过系统化构建流程建立了多维度评估基准。该数据集采集自ChatGPT公开发布前的真实编辑场景，涵盖英语、葡萄牙语和越南语三种资源层级不同的语言。研究团队设计了段落写作、摘要生成和文本风格转换三大核心任务，每个任务配备三种提示策略，并构建了包含WikiPS段落摘要语料和WETBench MGT中立化语料的双重语料库，所有文本均标注了修订版本号、章节标题等元数据以确保可追溯性。

特点

作为专注于维基百科场景的机器生成文本检测基准，WETBench展现出鲜明的领域特性。其多语言架构覆盖高低资源语言谱系，英语、葡萄牙语和越南语的平行数据为跨语言检测研究提供了可能。数据集创新性地区分了段落级和摘要级文本生成任务，同时包含句子中立化转换这种特定编辑行为。特别值得注意的是，所有语料均来自真实编辑工作流，且通过严格控制数据采集时间窗口，有效避免了主流生成模型对数据纯净度的影响。

使用方法

该数据集支持多种维基百科机器文本检测的研究路径。研究者可基于WikiPS语料开展段落真实性判别或摘要质量评估，利用其完备的原文-摘要对照字段进行细粒度分析。WETBench MGT语料则适用于文本风格迁移检测模型的训练与验证，其中标注的偏见-中立化句对为可控文本生成研究提供了宝贵资源。使用时应充分注意三大任务间的性能差异，建议结合语言资源水平进行分层评估，英语语料可作为基线系统开发的首选，而越南语等低资源语料则适合研究检测器的跨语言迁移能力。

背景与挑战

背景概述

WETBench数据集由研究团队于2022年推出，旨在解决维基百科平台上日益严重的机器生成文本（MGT）检测问题。随着大型语言模型（LLM）的普及，维基百科作为全球最重要的开放知识库之一，面临着低质量机器生成内容对其知识完整性的威胁。该数据集由多语言、多生成器和任务特定的文本构成，覆盖英语、葡萄牙语和越南语三种语言资源水平不同的语料，并聚焦于段落写作、摘要生成和文本风格转换三大编辑任务。其创新性在于首次系统性地模拟了维基百科编辑工作流中的实际用例，填补了传统MGT检测基准在特定任务场景下的空白，为维护网络知识平台的可靠性提供了重要研究工具。

当前挑战

WETBench数据集面临的核心挑战体现在两个维度：领域问题方面，现有检测器在任务特异性场景中的泛化能力不足，零样本检测器平均准确率仅为58%，且性能表现受任务类型、语言资源和生成模型的显著影响；数据构建方面，研究团队需克服多语言语料对齐的复杂性，确保在英语、葡萄牙语和越南语三种语言体系中保持标注标准的一致性，同时严格限定数据采集时间窗口以避免主流MGT工具的污染，所有语料均需在ChatGPT公开发布前完成收集。这些挑战凸显了在动态变化的网络编辑环境中建立稳健检测体系的难度。

常用场景

经典使用场景

在自然语言处理领域，WETBench数据集为检测维基百科上特定任务的机器生成文本（MGT）提供了基准。其经典使用场景包括评估和比较不同文本检测算法在维基百科编辑任务中的表现，如段落写作、摘要生成和文本风格转换。通过多语言、多生成器和任务特定的设计，该数据集能够全面反映真实编辑环境中的挑战。

实际应用

WETBench的实际应用主要集中在维基百科内容审核和自动化编辑辅助系统中。通过该数据集训练的检测模型能够有效识别低质量的机器生成文本，帮助编辑团队维护内容的可靠性和准确性。此外，该数据集还可用于优化自动化编辑工具，确保其生成的文本符合维基百科的质量标准。

衍生相关工作

WETBench的发布催生了一系列相关研究，特别是在多语言MGT检测和维基百科内容审核领域。例如，基于该数据集的后续工作探索了零样本检测器的优化方法，以及跨语言迁移学习的有效性。此外，该数据集还被用于评估新型生成模型在特定编辑任务中的表现，推动了生成与检测技术的协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集