WRENCH

arXiv2021-10-11 更新2024-07-31 收录

下载链接：

https://github.com/JieyuZ2/wrench

下载链接

链接失效反馈

官方服务：

资源简介：

WRENCH是一个全面的基准平台，用于对弱监督方法进行彻底和标准化的评估。它包含22个不同类型的真实世界分类和序列标记数据集，以及一系列真实的、合成的和程序生成的弱监督源。

WRENCH is a comprehensive benchmark platform for thorough and standardized evaluation of weak supervision methods. It contains 22 real-world classification and sequence labeling datasets of different types, along with a collection of real, synthetic, and programmatically generated weak supervision sources.

创建时间：

2021-09-23

原始信息汇总

🔧 数据集概述

分类数据集

名称	任务	类别数	标注规则数	训练集大小	验证集大小	测试集大小	数据来源	标注规则来源
Census	收入分类	2	83	10083	5561	16281	link	link
Youtube	垃圾邮件分类	2	10	1586	120	250	link	link
SMS	垃圾邮件分类	2	73	4571	500	500	link	link
IMDB	情感分类	2	8	20000	2500	2500	link	link
Yelp	情感分类	2	8	30400	3800	3800	link	link
AGNews	主题分类	4	9	96000	12000	12000	link	link
TREC	问题分类	6	68	4965	500	500	link	link
Spouse	关系分类	2	9	22254	2801	2701	link	link
SemEval	关系分类	9	164	1749	178	600	link	link
CDR	生物关系分类	2	33	8430	920	4673	link	link
Chemprot	化学关系分类	10	26	12861	1607	1607	link	link
Commercial	视频帧分类	2	4	64130	9479	7496	link	link
Tennis Rally	视频帧分类	2	6	6959	746	1098	link	link
Basketball	视频帧分类	2	4	17970	1064	1222	link	link
DomainNet	图像分类	-	-	-	-	-	link	link

序列标注数据集

名称	类别数	标注规则数	训练集大小	验证集大小	测试集大小	数据来源	标注规则来源
CoNLL-03	4	16	14041	3250	3453	link	link
WikiGold	4	16	1355	169	170	link	link
OntoNotes 5.0	18	17	115812	5000	22897	link	link
BC5CDR	2	9	500	500	500	link	link
NCBI-Disease	1	5	592	99	99	link	link
Laptop-Review	1	3	2436	609	800	link	link
MIT-Restaurant	8	16	7159	500	1521	link	link
MIT-Movies	12	7	9241	500	2441	link	link

搜集汇总

数据集介绍

构建方式

在弱监督学习领域，数据集的构建往往面临标准化缺失与评估偏差的挑战。WRENCH基准平台通过系统化整合22个真实世界数据集，覆盖分类与序列标注两大任务，有效应对了这一问题。该平台不仅汇集了来自文献的公开数据集及对应的用户定义标注函数，还引入了创新的程序化标注函数生成器。这些生成器基于完整标注的数据集，通过特征词典自动构建候选标注函数池，并依据用户设定的准确率、覆盖度、相关性等阈值进行筛选，从而生成多样化的弱监督信号。此外，WRENCH还提供了合成标注函数生成器，能够直接模拟条件独立的标注函数输出，为方法评估提供了可控的噪声环境。

特点

WRENCH数据集的核心特点在于其多样性与系统性。平台收录的22个数据集横跨多个领域，包括文本、视频、生物医学等，且每个数据集均配备了真实用户创建的标注函数，这些函数在准确率、覆盖度、冲突率等方面展现出显著差异。尤为突出的是，WRENCH首次引入了程序化与合成标注函数生成器，使研究者能够精细控制弱监督源的属性，如相关性、数据依赖性等，从而系统探究不同监督源特性对方法效能的影响。此外，平台提供了模块化、可扩展的评估框架，集成了主流弱监督方法的实现，支持超过120种方法变体的公平比较。

使用方法

WRENCH数据集的使用遵循模块化与标准化的原则。研究者可利用平台提供的统一接口，灵活组合不同的标签模型与终端模型，构建两阶段弱监督方法，并可选择使用软标签或硬标签进行训练。对于序列标注任务，平台提供了标签修正技术，以区分“未标注”与“无关实体”两种状态，并支持IO与BIO两种标注模式的比较。用户可通过程序化生成器，在真实或合成数据集上定制弱监督源，以诊断方法在不同监督属性下的表现。评估过程采用严格的协议，包括对标签模型、终端模型及联合模型的性能度量，并提供了超参数搜索空间与多次运行的平均结果，确保实验的可复现性与可靠性。

背景与挑战

背景概述

弱监督学习作为缓解机器学习标注瓶颈的关键技术，通过整合多源噪声监督信号合成训练标签，已在图像分类、序列标注等多个领域展现出广泛应用潜力。然而，该领域长期缺乏标准化评估体系，导致研究方法比较困难、结果可复现性低。为此，微软研究院亚洲院、华盛顿大学及佐治亚理工学院的研究团队于2021年联合推出了WRENCH基准平台，旨在为弱监督方法提供全面、规范的评估框架。该平台汇集了22个涵盖分类与序列标注任务的真实数据集，并首次引入了程序化弱监督源生成器，支持对监督源属性（如准确率、覆盖度、相关性）进行系统性研究。WRENCH的发布显著推动了弱监督领域的标准化进程，为后续方法创新与性能评估奠定了坚实基础。

当前挑战

WRENCH所应对的核心领域挑战在于弱监督学习范式中多源噪声标签的集成与去噪，其关键在于设计能够有效融合冲突、稀疏且相关性各异的监督信号，并生成高质量训练标签的模型。在平台构建过程中，研究团队面临三大主要挑战：其一，数据集的私有化与定制化问题突出，现有研究多采用非公开数据集，导致评估标准缺失；其二，弱监督源存在“隐性差异”，即同名数据集可能因采用的监督源不同而本质迥异，这严重影响了方法比较的公平性；其三，弱监督流程涉及标签模型与终端模型的多阶段训练，评估协议复杂且不统一，例如训练标签类型（软标签/硬标签）和报告阶段的选择缺乏规范，加剧了结果方差。

常用场景

经典使用场景

在弱监督学习领域，WRENCH数据集被广泛用于评估和比较各类弱监督方法的性能。其经典使用场景包括分类与序列标注任务，涵盖情感分析、垃圾邮件检测、命名实体识别等多个实际应用。研究者通过该数据集提供的多样化标注函数和标准化评估框架，能够系统性地测试不同弱监督模型的鲁棒性和泛化能力，从而推动弱监督算法的发展与优化。

衍生相关工作

基于WRENCH数据集，研究者衍生出多项经典工作，包括对弱监督源依赖结构的学习方法、标注函数的主动生成与复用技术，以及结合半监督学习的端模型训练策略。例如，条件隐马尔可夫模型（CHMM）通过结合数据特征改进了序列标注的标签模型；COSINE方法利用自训练和对比学习提升了预训练语言模型在弱监督下的性能。这些工作进一步拓展了弱监督学习的理论边界与应用范围。

数据集最近研究