BOXWRENCH

Name: BOXWRENCH
Creator: 威斯康星大学麦迪逊分校, 华盛顿大学, 斯坦福大学, 哈佛大学
Published: 2025-01-14 06:29:31
License: 暂无描述

arXiv2025-01-14 更新2025-01-16 收录

下载链接：

https://github.com/jeffreywpli/stronger-than-you-think

下载链接

链接失效反馈

官方服务：

资源简介：

BOXWRENCH是一个新的弱监督基准数据集，由威斯康星大学麦迪逊分校等机构的研究团队创建。该数据集包含五个文本分类任务，涵盖了高类别基数、类别不平衡和多语言变化等现实世界中的复杂场景。数据集包括Banking77、ChemProt、Claude9、MASSIVE18和MASSIVE60，分别用于在线银行查询、化学关系分类、不公平合同条款识别和多语言自然语言理解任务。数据集的设计遵循严格的标注函数（LF）设计流程，旨在为弱监督研究提供更真实的评估环境。该数据集的应用领域包括自然语言处理、化学信息学和法律文本分析，旨在解决弱监督在复杂任务中的实际应用问题。

BOXWRENCH is a novel weakly supervised benchmark dataset created by a research team from the University of Wisconsin-Madison and other institutions. The dataset encompasses five text classification tasks that address complex real-world scenarios such as high category cardinality, category imbalance, and multilingual variations. The dataset includes Banking77, ChemProt, Claude9, MASSIVE18, and MASSIVE60, which are respectively employed for online banking query, chemical relation classification, unfair contract clause identification, and multilingual natural language understanding tasks. Designed following a rigorous Label Function (LF) design process, the dataset aims to provide a more authentic evaluation environment for weakly supervised research. The application domains of this dataset include natural language processing, cheminformatics, and legal text analysis, with the intention of addressing practical application issues of weak supervision in complex tasks.

提供机构：

威斯康星大学麦迪逊分校, 华盛顿大学, 斯坦福大学, 哈佛大学

创建时间：

2025-01-14

搜集汇总

数据集介绍

构建方式

BOXWRENCH数据集的构建旨在反映真实世界中的弱监督（Weak Supervision, WS）应用场景。该数据集通过引入高类别基数、类别不平衡以及需要领域专业知识的多语言变体任务，弥补了现有WS基准的不足。具体构建过程中，研究人员精心设计了标注函数（Labeling Functions, LFs），并通过严格的流程确保其质量，以模拟真实世界中的标注过程。此外，数据集还包含了多个文本分类任务，涵盖了从银行查询到化学蛋白质关系分类的多样化领域。

特点

BOXWRENCH数据集的特点在于其高度复杂性和多样性。首先，数据集中的任务具有较高的类别基数（如Banking77包含77个类别），且类别分布不平衡，这更贴近现实世界中的数据集特性。其次，数据集中的任务需要特定的领域知识，例如化学蛋白质关系分类任务（ChemProt）和法律条款分类任务（Claude9）。此外，数据集还包含多语言变体（如MASSIVE18和MASSIVE60），展示了WS在多语言环境中的适用性。这些特点使得BOXWRENCH能够更全面地评估WS在不同复杂场景下的表现。

使用方法

BOXWRENCH数据集的使用方法主要围绕弱监督学习的三阶段流程展开。首先，用户可以通过数据集提供的标注函数（LFs）对未标注数据进行自动标注。接着，使用标签模型（Label Model, LM）对多个LFs的输出进行聚合，生成高质量的伪标签。最后，这些伪标签可用于训练下游模型。数据集还支持对比实验，用户可以通过调整验证集的大小，评估弱监督学习与全监督学习在不同数据量下的性能差异。此外，数据集还提供了多语言任务的实验框架，支持跨语言标注函数的复用，进一步扩展了WS的应用场景。

背景与挑战

背景概述

BOXWRENCH数据集由威斯康星大学麦迪逊分校、华盛顿大学、斯坦福大学和哈佛大学的研究团队于2025年1月15日发布，旨在解决弱监督学习（Weak Supervision, WS）在现实任务中的评估问题。弱监督学习通过利用多种噪声但廉价的弱标签源来自动标注训练数据，从而缓解监督学习中标注数据不足的瓶颈。然而，现有的弱监督评估基准往往局限于特定组件或简化任务，难以反映真实世界的复杂性。BOXWRENCH通过引入高类别基数、类别不平衡、领域专业知识需求和多语言变体等任务，填补了这一空白，为弱监督学习在更广泛场景中的实际价值提供了量化依据。

当前挑战

BOXWRENCH数据集面临的挑战主要体现在两个方面。首先，弱监督学习在现实任务中的应用效果难以准确评估，因为现有基准数据集通常类别基数较小、类别分布平衡，且缺乏领域专业知识需求，无法充分反映真实世界的复杂性。其次，在构建数据集时，如何设计高质量的标注函数（Labeling Functions, LFs）是一个关键挑战。现有的标注函数往往质量参差不齐，导致评估结果不够准确。BOXWRENCH通过精心设计的标注函数生成流程，提升了标注函数的质量，并展示了在多语言任务中重用标注函数的潜力，进一步增强了弱监督学习的实用性。

常用场景

经典使用场景

BOXWRENCH数据集主要用于评估弱监督学习（Weak Supervision, WS）在现实任务中的表现。该数据集通过设计具有高类别基数、类别不平衡以及需要领域专业知识的多语言文本分类任务，模拟了真实世界中的复杂场景。研究人员可以利用BOXWRENCH来测试不同的弱监督方法，包括标签函数（Labeling Functions, LFs）的设计、标签模型（Label Models, LMs）的选择以及下游模型的训练效果。

衍生相关工作

BOXWRENCH的推出催生了一系列相关研究工作，特别是在弱监督标签函数设计和多语言任务中的应用。例如，研究人员基于BOXWRENCH提出了改进的标签函数设计流程，显著提升了弱监督模型的性能。此外，该数据集还启发了跨语言弱监督方法的研究，展示了如何通过翻译和复用现有标签函数在多语言任务中实现高效标注。这些衍生工作不仅推动了弱监督技术的发展，还为实际应用中的多语言数据处理提供了新的解决方案。

数据集最近研究