Unified Datasets for 0SHOT-TC

Name: Unified Datasets for 0SHOT-TC
Creator: 宾夕法尼亚大学计算机与信息科学系认知计算组
Published: 2019-08-31 15:42:11
License: 暂无描述

arXiv2019-08-31 更新2024-07-31 收录

下载链接：

https://github.com/yinwenpeng/BenchmarkingZeroShot

下载链接

链接失效反馈

官方服务：

资源简介：

本研究提供的数据集旨在支持零样本文本分类（0SHOT-TC）的研究，涵盖了主题、情感和情境三个不同的方面。数据集包括了如‘体育’、‘政治’等主题标签，‘喜悦’、‘愤怒’等情感标签，以及‘医疗援助’、‘水资源短缺’等情境标签。创建过程中，数据集被标准化分割为训练、开发和测试集，并明确区分了已见和未见类别。该数据集的应用领域广泛，旨在解决文本分类中未见类别的识别问题，特别是在没有特定训练数据的情况下进行文本分类。

The dataset presented in this study is designed to support research on zero-shot text classification (0SHOT-TC), covering three distinct dimensions: topic, sentiment, and scenario. It includes various labels, with "sports" and "politics" as topic labels, "joy" and "anger" as sentiment labels, and "medical aid" and "water shortage" as scenario labels. During its creation, the dataset was standardly split into training, development, and test sets, with a clear distinction between seen and unseen categories. This dataset has wide-ranging application scenarios, aiming to address the challenge of identifying unseen categories in text classification, especially when performing classification tasks without specific training data.

提供机构：

宾夕法尼亚大学计算机与信息科学系认知计算组

创建时间：

2019-08-31

原始信息汇总

BenchmarkingZeroShot 数据集概述

数据集下载

主题检测、情感检测和情境检测数据集下载链接：https://drive.google.com/open?id=1qGmyEVD19ruvLLz9J0QGV7rsZPFEz2Az
维基百科数据和三个预训练的蕴含模型（RTE、MNLI、FEVER）下载链接：https://drive.google.com/file/d/1ILCQR_y-OSTdgkz45LP7JsHcelEsvoIn/view?usp=sharing

引用信息

@inproceedings{yinroth2019zeroshot, title={Benchmarking Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach}, author={Wenpeng Yin, Jamaal Hay and Dan Roth}, booktitle={{EMNLP}}, url = {https://arxiv.org/abs/1909.00161}, year={2019} }

运行要求

Pytorch
Transformer (pytorch): https://github.com/huggingface/transformers
GPU

运行命令示例

CUDA_VISIBLE_DEVICES=1 python -u baseline_wiki_based_emotion.py --task_name rte --do_train --do_lower_case --bert_model bert-base-uncased --max_seq_length 128 --train_batch_size 32 --learning_rate 2e-5 --num_train_epochs 3 --data_dir --output_dir

重要步骤

由于代码使用的是旧版本的 "pytorch-transformer"，需要在运行前将其更新为 "transformer"。
更新 "BertForSequenceClassification" 函数的参数顺序，以适应新版本的 "transformer"。

搜集汇总

数据集介绍

构建方式

在零样本文本分类领域，Unified Datasets for 0SHOT-TC的构建旨在标准化评估基准，涵盖主题、情感和情境三个不同维度。该数据集通过整合现有公开资源，如Yahoo问答数据集、UnifyEmotion情感数据集及Situation Typing情境数据集，并依据标签部分可见与标签完全可见两种评估设置进行重组。具体而言，每个数据集均划分训练、开发和测试集，并精心设计可见与不可见标签的分离，确保模型能在同一方面内泛化至未见标签，同时应对无任务特定训练数据的极端场景。

特点

该数据集的核心特点在于其多维度的分类任务设计，突破了传统零样本分类仅聚焦主题范畴的局限。它覆盖了主题检测、情感识别和情境帧检测三个异构方面，其中主题与情感任务为单标签分类，情境任务则支持多标签分类，并引入了“无”类别以增强现实适用性。数据集强调标签语义的理解，通过将分类问题转化为文本蕴含形式，促使模型模仿人类基于方面解释和标签含义进行推理的能力，从而在开放领域和多样方面中实现更广泛的泛化。

使用方法

使用该数据集时，研究者可依据两种标准化评估设置展开实验。在标签部分可见设置中，模型利用部分标签的标注数据进行训练，并在完整标签空间上测试，以评估模型对同一方面内未见标签的泛化能力。而在标签完全可见设置中，模型无需任何任务特定标注数据，直接应用于开放方面的测试集，模拟真实世界零样本分类场景。数据集支持基于文本蕴含的方法，通过将标签转换为假设并与文本前提配对，利用预训练的蕴含模型（如基于MNLI、FEVER或RTE的BERT）进行推理，从而实现跨方面的统一处理。

背景与挑战

背景概述

在自然语言处理领域，零样本文本分类（0SHOT-TC）作为一项前沿挑战，旨在无需特定任务标注数据的情况下，对文本进行跨领域、跨方面的标签关联。该数据集由宾夕法尼亚大学认知计算组的Wenpeng Yin、Jamaal Hay和Dan Roth于2019年构建，核心研究问题聚焦于突破传统文本分类的局限，推动模型在开放标签空间下的泛化能力。通过整合主题、情感和情境三个方面的标准化数据，该工作为0SHOT-TC研究提供了统一的评估基准，显著促进了零样本学习在文本理解中的应用与发展。

当前挑战

零样本文本分类面临的核心挑战在于模型需在未见标签和多样文本方面下实现准确预测，这要求系统具备深度的语义理解与推理能力。具体而言，领域问题的挑战包括处理复合型、超细粒度或动态变化的标签，以及跨方面（如主题、情感、情境）的泛化；构建过程中的挑战则涉及数据集的统一与标准化，例如平衡不同方面的标签分布、设计合理的评估设置（如部分标签未见与全标签未见），以及将分类问题转化为文本蕴含形式时假设生成的自然性与有效性。

常用场景

经典使用场景

在自然语言理解领域，零样本文本分类（0SHOT-TC）旨在构建无需任务特定标注数据即可对文本进行多维度分类的系统。Unified Datasets for 0SHOT-TC作为该领域的基准数据集，其经典使用场景在于为研究者提供了一个标准化的实验平台，用于系统评估模型在“主题分类”、“情感检测”与“情境检测”三个不同语义层面的零样本泛化能力。该数据集通过精心设计的“标签部分未见”与“标签完全未见”两种评估设置，使得模型能够在统一框架下接受跨领域、跨语义维度的严格测试，从而推动零样本分类方法向更接近人类认知的通用化方向发展。

解决学术问题

该数据集系统性地解决了零样本文本分类研究中长期存在的三个核心学术问题：其一，突破了以往研究仅局限于单一主题分类的狭隘视野，通过引入情感与情境等多维度语义分类任务，拓展了零样本分类的问题定义边界；其二，针对传统分类方法将标签视为无意义索引、无法理解标签语义内涵的缺陷，该数据集倡导并实践了基于文本蕴含的建模范式，促使模型必须理解标签的语义及其所属的“方面”解释；其三，终结了以往研究因使用不同数据集和评估协议而导致的混乱比较局面，通过提供标准化的数据划分与评估体系，为不同方法的公平比较与性能演进奠定了坚实基础。

衍生相关工作

该基准数据集的发布催生并衔接了一系列零样本文本分类领域的经典与后续研究工作。其核心贡献在于将文本蕴含（Textual Entailment）范式系统性地引入零样本分类，启发了大量研究探索如何利用MNLI、FEVER等大规模蕴含数据集的知识来提升分类器的语义理解与泛化能力。相关工作沿着几个方向深化：一是改进标签到假设的生成方法，超越简单的词语替换，探索利用定义、外部知识库或生成式模型构建更自然的假设；二是研究更强大的预训练语言模型（如BERT及其变体）在该框架下的微调与适应策略；三是探索多任务学习、元学习等范式，以构建对开放域和未知“方面”更具适应性的统一分类器。这些衍生工作共同推动了零样本分类从受限的实验室任务向开放世界应用的迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集