five

VAST|零样本学习数据集|立场检测数据集

收藏
arXiv2020-10-08 更新2024-06-21 收录
零样本学习
立场检测
下载链接:
https://github.com/emilyallaway/zero-shot-stance
下载链接
链接失效反馈
资源简介:
VAST数据集由哥伦比亚大学创建,专注于零样本立场检测,涵盖广泛的主题和词汇变异。数据集包含大量主题,如政治、教育和公共卫生,并捕捉了人类可能真实描述同一主题的多种表达方式。创建过程涉及从ARC语料库中提取特定主题,并通过众包收集立场标签。VAST数据集适用于开发零样本和少样本立场检测模型,旨在解决模型在真实世界中对广泛主题的泛化能力评估问题。
提供机构:
哥伦比亚大学
创建时间:
2020-10-08
AI搜集汇总
数据集介绍
main_image_url
构建方式
VAST数据集通过从《纽约时报》的‘Room for Debate’部分收集评论,并利用ARC语料库的立场标注作为起点,构建了一个用于零样本立场检测的新数据集。数据集的构建过程中,首先通过启发式方法从ARC语料库的立场位置中提取特定主题,然后使用众包方式收集立场标签和额外的主题。众包过程中,每个主题-评论对由三名工人标注,最终采用多数投票作为最终标签。此外,为了增加中性立场的样本,通过排列现有主题和评论自动生成中性样本。
特点
VAST数据集的一个显著特点是其广泛的主题覆盖范围和词汇变异。数据集包含了从政治、教育到公共健康等多个领域的广泛主题,并且每个主题都有多种表达方式,这更真实地反映了人类如何讨论同一主题。此外,数据集中的主题数量众多,且每个主题的样本数量较少,这使得数据集非常适合用于零样本和少样本立场检测模型的开发。
使用方法
VAST数据集可用于训练和评估零样本和少样本立场检测模型。研究者可以使用该数据集来开发和测试能够从未见过的主题中检测立场的模型。数据集的多样性和广泛性使其成为评估模型泛化能力的重要资源。此外,数据集的众包标注方式和自动生成的中性样本也为研究者提供了丰富的实验材料,以探索不同标注策略和数据增强技术对模型性能的影响。
背景与挑战
背景概述
立场检测(Stance Detection)作为理解日常生活中隐含影响的重要组成部分,其重要性日益凸显。由于存在数千个潜在的话题需要表达立场,且大多数话题缺乏训练数据,因此零样本立场检测(Zero-Shot Stance Detection)成为研究焦点:即在没有训练示例的情况下进行立场分类。在此背景下,VAST数据集应运而生,由哥伦比亚大学的Emily Allaway和Kathleen McKeown等人创建。该数据集旨在捕捉比以往数据集更广泛的话题范围和词汇变化,特别适用于零样本和少样本立场检测。VAST数据集的构建不仅解决了训练数据稀缺的问题,还通过广义话题表示(Generalized Topic Representations)模型,显著提升了在多种语言现象上的性能。
当前挑战
VAST数据集面临的挑战主要集中在两个方面:一是解决领域问题,即在缺乏足够训练数据的情况下,如何准确分类立场;二是构建过程中遇到的挑战,包括如何从大量未标记数据中提取有效话题,以及如何确保标注的一致性和准确性。此外,数据集中话题的多样性和词汇表达的复杂性,使得模型在零样本和少样本立场检测任务中面临泛化能力的考验。尽管VAST数据集通过广义话题表示模型取得了显著进展,但如何在保持高性能的同时,进一步减少对情感线索的依赖,仍是未来研究的重要方向。
常用场景
经典使用场景
VAST数据集的经典使用场景在于零样本立场检测,即在没有特定主题训练数据的情况下,对文本中的立场进行分类。该数据集通过捕捉广泛的主题和词汇变化,为模型提供了在真实世界中泛化能力的评估平台。
解决学术问题
VAST数据集解决了立场检测领域中常见的学术研究问题,即如何在缺乏大量标注数据的情况下,有效地进行立场分类。其意义在于推动了零样本和少样本学习技术的发展,为处理现实世界中多样化和复杂化的立场表达提供了新的方法和工具。
衍生相关工作
VAST数据集的提出催生了一系列相关研究工作,包括基于上下文聚类的广义主题表示模型、双向条件编码和主题分组注意力网络等。这些工作不仅提升了立场检测的准确性,还为处理复杂语言现象和情感线索提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录