VAST

Name: VAST
Creator: 哥伦比亚大学
Published: 2020-10-08 04:27:12
License: 暂无描述

arXiv2020-10-08 更新2024-06-21 收录

下载链接：

https://github.com/emilyallaway/zero-shot-stance

下载链接

链接失效反馈

官方服务：

资源简介：

VAST数据集由哥伦比亚大学创建，专注于零样本立场检测，涵盖广泛的主题和词汇变异。数据集包含大量主题，如政治、教育和公共卫生，并捕捉了人类可能真实描述同一主题的多种表达方式。创建过程涉及从ARC语料库中提取特定主题，并通过众包收集立场标签。VAST数据集适用于开发零样本和少样本立场检测模型，旨在解决模型在真实世界中对广泛主题的泛化能力评估问题。

The VAST dataset was developed by Columbia University, focusing on zero-shot stance detection and covering a broad spectrum of topics and lexical variations. It encompasses numerous topics including politics, education, and public health, and captures the diverse authentic expressions that humans may employ when describing the same subject. The dataset's creation involved extracting specific topics from the ARC corpus and collecting stance labels via crowdsourcing. The VAST dataset is suitable for developing zero-shot and few-shot stance detection models, and aims to address the challenge of evaluating a model's generalization capabilities across a wide range of topics in real-world scenarios.

提供机构：

哥伦比亚大学

创建时间：

2020-10-08

搜集汇总

数据集介绍

构建方式

VAST数据集通过从《纽约时报》的‘Room for Debate’部分收集评论，并利用ARC语料库的立场标注作为起点，构建了一个用于零样本立场检测的新数据集。数据集的构建过程中，首先通过启发式方法从ARC语料库的立场位置中提取特定主题，然后使用众包方式收集立场标签和额外的主题。众包过程中，每个主题-评论对由三名工人标注，最终采用多数投票作为最终标签。此外，为了增加中性立场的样本，通过排列现有主题和评论自动生成中性样本。

特点

VAST数据集的一个显著特点是其广泛的主题覆盖范围和词汇变异。数据集包含了从政治、教育到公共健康等多个领域的广泛主题，并且每个主题都有多种表达方式，这更真实地反映了人类如何讨论同一主题。此外，数据集中的主题数量众多，且每个主题的样本数量较少，这使得数据集非常适合用于零样本和少样本立场检测模型的开发。

使用方法

VAST数据集可用于训练和评估零样本和少样本立场检测模型。研究者可以使用该数据集来开发和测试能够从未见过的主题中检测立场的模型。数据集的多样性和广泛性使其成为评估模型泛化能力的重要资源。此外，数据集的众包标注方式和自动生成的中性样本也为研究者提供了丰富的实验材料，以探索不同标注策略和数据增强技术对模型性能的影响。

背景与挑战

背景概述

立场检测（Stance Detection）作为理解日常生活中隐含影响的重要组成部分，其重要性日益凸显。由于存在数千个潜在的话题需要表达立场，且大多数话题缺乏训练数据，因此零样本立场检测（Zero-Shot Stance Detection）成为研究焦点：即在没有训练示例的情况下进行立场分类。在此背景下，VAST数据集应运而生，由哥伦比亚大学的Emily Allaway和Kathleen McKeown等人创建。该数据集旨在捕捉比以往数据集更广泛的话题范围和词汇变化，特别适用于零样本和少样本立场检测。VAST数据集的构建不仅解决了训练数据稀缺的问题，还通过广义话题表示（Generalized Topic Representations）模型，显著提升了在多种语言现象上的性能。

当前挑战

VAST数据集面临的挑战主要集中在两个方面：一是解决领域问题，即在缺乏足够训练数据的情况下，如何准确分类立场；二是构建过程中遇到的挑战，包括如何从大量未标记数据中提取有效话题，以及如何确保标注的一致性和准确性。此外，数据集中话题的多样性和词汇表达的复杂性，使得模型在零样本和少样本立场检测任务中面临泛化能力的考验。尽管VAST数据集通过广义话题表示模型取得了显著进展，但如何在保持高性能的同时，进一步减少对情感线索的依赖，仍是未来研究的重要方向。

常用场景

经典使用场景

VAST数据集的经典使用场景在于零样本立场检测，即在没有特定主题训练数据的情况下，对文本中的立场进行分类。该数据集通过捕捉广泛的主题和词汇变化，为模型提供了在真实世界中泛化能力的评估平台。

解决学术问题

VAST数据集解决了立场检测领域中常见的学术研究问题，即如何在缺乏大量标注数据的情况下，有效地进行立场分类。其意义在于推动了零样本和少样本学习技术的发展，为处理现实世界中多样化和复杂化的立场表达提供了新的方法和工具。

衍生相关工作

VAST数据集的提出催生了一系列相关研究工作，包括基于上下文聚类的广义主题表示模型、双向条件编码和主题分组注意力网络等。这些工作不仅提升了立场检测的准确性，还为处理复杂语言现象和情感线索提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集