WRENCH
收藏arXiv2021-10-11 更新2024-07-31 收录
下载链接:
https://github.com/JieyuZ2/wrench
下载链接
链接失效反馈官方服务:
资源简介:
WRENCH是一个全面的基准平台,用于对弱监督方法进行彻底和标准化的评估。它包含22个不同类型的真实世界分类和序列标记数据集,以及一系列真实的、合成的和程序生成的弱监督源。
WRENCH is a comprehensive benchmark platform for thorough and standardized evaluation of weak supervision methods. It contains 22 real-world classification and sequence labeling datasets of different types, along with a collection of real, synthetic, and programmatically generated weak supervision sources.
创建时间:
2021-09-23
原始信息汇总
🔧 数据集概述
分类数据集
| 名称 | 任务 | 类别数 | 标注规则数 | 训练集大小 | 验证集大小 | 测试集大小 | 数据来源 | 标注规则来源 |
|---|---|---|---|---|---|---|---|---|
| Census | 收入分类 | 2 | 83 | 10083 | 5561 | 16281 | link | link |
| Youtube | 垃圾邮件分类 | 2 | 10 | 1586 | 120 | 250 | link | link |
| SMS | 垃圾邮件分类 | 2 | 73 | 4571 | 500 | 500 | link | link |
| IMDB | 情感分类 | 2 | 8 | 20000 | 2500 | 2500 | link | link |
| Yelp | 情感分类 | 2 | 8 | 30400 | 3800 | 3800 | link | link |
| AGNews | 主题分类 | 4 | 9 | 96000 | 12000 | 12000 | link | link |
| TREC | 问题分类 | 6 | 68 | 4965 | 500 | 500 | link | link |
| Spouse | 关系分类 | 2 | 9 | 22254 | 2801 | 2701 | link | link |
| SemEval | 关系分类 | 9 | 164 | 1749 | 178 | 600 | link | link |
| CDR | 生物关系分类 | 2 | 33 | 8430 | 920 | 4673 | link | link |
| Chemprot | 化学关系分类 | 10 | 26 | 12861 | 1607 | 1607 | link | link |
| Commercial | 视频帧分类 | 2 | 4 | 64130 | 9479 | 7496 | link | link |
| Tennis Rally | 视频帧分类 | 2 | 6 | 6959 | 746 | 1098 | link | link |
| Basketball | 视频帧分类 | 2 | 4 | 17970 | 1064 | 1222 | link | link |
| DomainNet | 图像分类 | - | - | - | - | - | link | link |
序列标注数据集
| 名称 | 类别数 | 标注规则数 | 训练集大小 | 验证集大小 | 测试集大小 | 数据来源 | 标注规则来源 |
|---|---|---|---|---|---|---|---|
| CoNLL-03 | 4 | 16 | 14041 | 3250 | 3453 | link | link |
| WikiGold | 4 | 16 | 1355 | 169 | 170 | link | link |
| OntoNotes 5.0 | 18 | 17 | 115812 | 5000 | 22897 | link | link |
| BC5CDR | 2 | 9 | 500 | 500 | 500 | link | link |
| NCBI-Disease | 1 | 5 | 592 | 99 | 99 | link | link |
| Laptop-Review | 1 | 3 | 2436 | 609 | 800 | link | link |
| MIT-Restaurant | 8 | 16 | 7159 | 500 | 1521 | link | link |
| MIT-Movies | 12 | 7 | 9241 | 500 | 2441 | link | link |
搜集汇总
数据集介绍

构建方式
在弱监督学习领域,数据集的构建往往面临标准化缺失与评估偏差的挑战。WRENCH基准平台通过系统化整合22个真实世界数据集,覆盖分类与序列标注两大任务,有效应对了这一问题。该平台不仅汇集了来自文献的公开数据集及对应的用户定义标注函数,还引入了创新的程序化标注函数生成器。这些生成器基于完整标注的数据集,通过特征词典自动构建候选标注函数池,并依据用户设定的准确率、覆盖度、相关性等阈值进行筛选,从而生成多样化的弱监督信号。此外,WRENCH还提供了合成标注函数生成器,能够直接模拟条件独立的标注函数输出,为方法评估提供了可控的噪声环境。
特点
WRENCH数据集的核心特点在于其多样性与系统性。平台收录的22个数据集横跨多个领域,包括文本、视频、生物医学等,且每个数据集均配备了真实用户创建的标注函数,这些函数在准确率、覆盖度、冲突率等方面展现出显著差异。尤为突出的是,WRENCH首次引入了程序化与合成标注函数生成器,使研究者能够精细控制弱监督源的属性,如相关性、数据依赖性等,从而系统探究不同监督源特性对方法效能的影响。此外,平台提供了模块化、可扩展的评估框架,集成了主流弱监督方法的实现,支持超过120种方法变体的公平比较。
使用方法
WRENCH数据集的使用遵循模块化与标准化的原则。研究者可利用平台提供的统一接口,灵活组合不同的标签模型与终端模型,构建两阶段弱监督方法,并可选择使用软标签或硬标签进行训练。对于序列标注任务,平台提供了标签修正技术,以区分“未标注”与“无关实体”两种状态,并支持IO与BIO两种标注模式的比较。用户可通过程序化生成器,在真实或合成数据集上定制弱监督源,以诊断方法在不同监督属性下的表现。评估过程采用严格的协议,包括对标签模型、终端模型及联合模型的性能度量,并提供了超参数搜索空间与多次运行的平均结果,确保实验的可复现性与可靠性。
背景与挑战
背景概述
弱监督学习作为缓解机器学习标注瓶颈的关键技术,通过整合多源噪声监督信号合成训练标签,已在图像分类、序列标注等多个领域展现出广泛应用潜力。然而,该领域长期缺乏标准化评估体系,导致研究方法比较困难、结果可复现性低。为此,微软研究院亚洲院、华盛顿大学及佐治亚理工学院的研究团队于2021年联合推出了WRENCH基准平台,旨在为弱监督方法提供全面、规范的评估框架。该平台汇集了22个涵盖分类与序列标注任务的真实数据集,并首次引入了程序化弱监督源生成器,支持对监督源属性(如准确率、覆盖度、相关性)进行系统性研究。WRENCH的发布显著推动了弱监督领域的标准化进程,为后续方法创新与性能评估奠定了坚实基础。
当前挑战
WRENCH所应对的核心领域挑战在于弱监督学习范式中多源噪声标签的集成与去噪,其关键在于设计能够有效融合冲突、稀疏且相关性各异的监督信号,并生成高质量训练标签的模型。在平台构建过程中,研究团队面临三大主要挑战:其一,数据集的私有化与定制化问题突出,现有研究多采用非公开数据集,导致评估标准缺失;其二,弱监督源存在“隐性差异”,即同名数据集可能因采用的监督源不同而本质迥异,这严重影响了方法比较的公平性;其三,弱监督流程涉及标签模型与终端模型的多阶段训练,评估协议复杂且不统一,例如训练标签类型(软标签/硬标签)和报告阶段的选择缺乏规范,加剧了结果方差。
常用场景
经典使用场景
在弱监督学习领域,WRENCH数据集被广泛用于评估和比较各类弱监督方法的性能。其经典使用场景包括分类与序列标注任务,涵盖情感分析、垃圾邮件检测、命名实体识别等多个实际应用。研究者通过该数据集提供的多样化标注函数和标准化评估框架,能够系统性地测试不同弱监督模型的鲁棒性和泛化能力,从而推动弱监督算法的发展与优化。
衍生相关工作
基于WRENCH数据集,研究者衍生出多项经典工作,包括对弱监督源依赖结构的学习方法、标注函数的主动生成与复用技术,以及结合半监督学习的端模型训练策略。例如,条件隐马尔可夫模型(CHMM)通过结合数据特征改进了序列标注的标签模型;COSINE方法利用自训练和对比学习提升了预训练语言模型在弱监督下的性能。这些工作进一步拓展了弱监督学习的理论边界与应用范围。
数据集最近研究
最新研究方向
在弱监督学习领域,WRENCH基准平台的推出标志着该领域标准化评估的重要进展。当前研究聚焦于探索弱监督源的多维属性对模型性能的系统性影响,特别是标注函数的准确性、覆盖度、冲突率以及数据依赖性等关键维度。前沿工作致力于开发能够自适应聚合多源弱监督信号的联合模型,并融合对比学习与自训练策略以提升终端模型的泛化能力。同时,研究者正深入探究弱监督源之间的依赖结构建模,以及如何自动生成与优化标注函数,从而在减少人工标注成本的同时维持模型性能。这些方向不仅推动了弱监督方法在文本分类、序列标注等任务中的应用深化,也为生物医学、自动驾驶等数据稀缺领域的实践提供了新的技术路径。
相关研究论文
- 1WRENCH: A Comprehensive Benchmark for Weak Supervision · 2021年
以上内容由遇见数据集搜集并总结生成



