BESSTIE-CW-26
收藏Hugging Face2026-02-17 更新2026-02-18 收录
下载链接:
https://huggingface.co/datasets/surrey-nlp/BESSTIE-CW-26
下载链接
链接失效反馈官方服务:
资源简介:
BESSTIE(平衡分割)数据集包含用于情感和讽刺标注的短篇英语用户生成文本。该数据集涵盖三种英语变体(方言):澳大利亚英语(en-AU)、印度英语(en-IN)和英国英语(en-UK),数据来源于Google评论和Reddit帖子/评论。每个实例包含情感(0表示负面,1表示正面)和讽刺(0表示非讽刺,1表示讽刺)的二元标签。数据集提供了训练集(3747个样本)、验证集(313个样本)和测试集(2183个样本)的划分,总计6243个样本。具体方言分布为:en-IN(2332个样本)、en-AU(1907个样本)和en-UK(2004个样本)。该数据集适用于文本分类任务,特别是情感分析和讽刺检测。
提供机构:
University of Surrey NLP Group
创建时间:
2026-02-17
搜集汇总
数据集介绍
构建方式
在自然语言处理领域,针对多方言情感与讽刺分析的数据集构建,往往依赖于对用户生成文本的系统性采集与标注。BESSTIE-CW-26数据集作为BESSTIE数据集的一个精选子集,其构建过程体现了严谨的语料选择与处理流程。数据来源于谷歌平台的本地化评论以及Reddit论坛的帖子与评论,涵盖了澳大利亚英语、印度英语和英国英语三种方言变体。文本经过人工或自动化流程标注了二元情感标签(消极或积极)与二元讽刺标签(非讽刺或讽刺),并按照60%、5%、35%的比例划分为训练集、验证集和测试集,确保了数据在方言与标签维度上的平衡性与代表性。
特点
该数据集的核心特点在于其多维度、细粒度的标注体系与方言多样性。它不仅提供了传统的情感极性分类,还同步标注了文本中是否包含讽刺表达,为研究情感与讽刺的交互关系提供了宝贵资源。数据集覆盖了三种具有显著地域与文化差异的英语变体,能够支持方言感知的模型训练与分析,有助于探究语言变体对情感与讽刺表达的影响。此外,数据来源于真实的社交媒体与评论平台,文本风格自然、语境丰富,具有较强的现实应用价值。
使用方法
在情感分析与讽刺检测的研究与应用中,该数据集为模型训练与评估提供了标准化的基准。研究者可通过Hugging Face的`datasets`库直接加载数据集,便捷地访问其训练、验证与测试分割。每个数据样本包含原始文本、方言类别、数据来源以及情感与讽刺标签,便于进行多任务学习或针对特定方言、特定来源的深入分析。数据集的划分比例与统计信息透明公开,有助于研究者合理设计实验,评估模型在不同方言和标签类别上的泛化能力与性能。
背景与挑战
背景概述
在自然语言处理领域,情感分析与讽刺检测是理解用户生成内容的关键任务,尤其在社交媒体和在线评论平台中具有广泛应用价值。BESSTIE-CW-26数据集作为BESSTIE数据集的一个精选子集,由相关研究团队于2024年构建,旨在探索不同英语变体下的语言现象。该数据集聚焦于澳大利亚英语、印度英语和英国英语三种方言,通过标注文本的情感极性(正面或负面)和讽刺性(讽刺或非讽刺),为核心研究问题——即方言差异如何影响情感与讽刺的自动识别——提供了实证基础。其数据来源于谷歌的本地化评论和Reddit的社区帖子,为跨文化、跨平台的语言分析研究贡献了重要资源,推动了细粒度文本理解模型的发展。
当前挑战
该数据集致力于解决情感分析与讽刺检测在多元英语变体中的挑战,其核心问题在于模型需要克服方言特有的词汇、句法及文化语境差异,以实现跨变体的稳健性能。构建过程中的挑战主要体现在数据收集与标注层面:首先,从谷歌和Reddit等异构平台获取真实用户文本时,需处理噪声数据、非标准拼写及口语化表达;其次,讽刺标注尤其困难,因其高度依赖语境和隐性语义,不同方言区的文化背景可能加剧标注者间的不一致性。此外,平衡三种英语变体的数据分布,并确保标注质量在有限资源下达到研究标准,也是数据集构建中的关键难题。
常用场景
经典使用场景
在情感分析与讽刺检测的研究领域,BESSTIE-CW-26数据集因其涵盖澳大利亚、印度和英国三种英语变体,并整合了谷歌评论与Reddit帖文的多元语料,成为评估模型跨方言与跨平台泛化能力的经典基准。研究者常利用该数据集训练深度神经网络,以同时预测文本的情感极性(正面或负面)和讽刺属性(讽刺或非讽刺),从而探索语言风格与社会文化背景对语义理解的影响。
解决学术问题
该数据集有效应对了自然语言处理中模型对地域性语言变体适应不足的挑战,为研究方言差异在情感表达与讽刺使用中的模式提供了实证基础。通过标注细粒度的情感与讽刺标签,它助力于解决社交媒体文本中语义歧义问题,推动了多任务学习框架的发展,并促进了跨文化语境下语言理解模型的公平性与鲁棒性评估。
衍生相关工作
围绕该数据集衍生的经典工作包括基于多任务学习的联合情感与讽刺检测模型,这些模型通过共享表示层捕捉两类任务的相关性。此外,研究者利用其方言标注开发了跨变体迁移学习算法,以提升资源稀缺变体(如印度英语)的性能;亦有研究聚焦于数据增强技术,以缓解类别不平衡问题,并探索了图神经网络在社交语境建模中的应用。
以上内容由遇见数据集搜集并总结生成



