BESSTIE

Name: BESSTIE
Creator: 新南威尔士大学悉尼分校
Published: 2024-12-06 10:34:40
License: 暂无描述

arXiv2024-12-06 更新2024-12-10 收录

下载链接：

http://arxiv.org/abs/2412.04726v1

下载链接

链接失效反馈

官方服务：

资源简介：

BESSTIE是一个用于情感和讽刺分类的基准数据集，专门针对澳大利亚、印度和英国三种英语变体。数据集从Google Place评论和Reddit评论中收集，通过位置和主题过滤方法进行筛选。本地语言使用者手动标注数据集的情感和讽刺标签。数据集的创建旨在解决大型语言模型在非主流英语变体上的偏见问题，特别是在情感和讽刺分类任务中。BESSTIE数据集的应用领域包括自然语言处理和语言模型评估，旨在提高模型在不同英语变体上的公平性和性能。

BESSTIE is a benchmark dataset for sentiment and sarcasm classification, specifically targeting three English varieties: Australian, Indian, and British English. The dataset is collected from Google Place reviews and Reddit comments, and filtered via location and topic filtering approaches. Its sentiment and sarcasm labels are manually annotated by native speakers of the respective English varieties. The dataset is developed to mitigate the bias issue of large language models (LLMs) when applied to non-mainstream English variants, especially in sentiment and sarcasm classification tasks. The application domains of the BESSTIE dataset cover natural language processing (NLP) and language model evaluation, with the goal of enhancing the fairness and performance of models across diverse English variants.

提供机构：

新南威尔士大学悉尼分校

创建时间：

2024-12-06

搜集汇总

数据集介绍

构建方式

BESSTIE数据集通过从Google Place评论和Reddit评论中收集文本数据，采用位置和主题两种过滤方法，构建了针对澳大利亚（en-AU）、印度（en-IN）和英国（en-UK）三种英语变体的情感和讽刺分类基准。数据集的构建过程包括从特定国家的城市中筛选评论，并使用fastText语言概率模型过滤非英语内容，确保数据的语言纯度。随后，由母语者对这些文本进行情感和讽刺标签的手动标注，确保标签的准确性和多样性。

特点

BESSTIE数据集的显著特点在于其专注于非主流英语变体的情感和讽刺分类，填补了现有数据集在这一领域的空白。数据集包含了来自不同领域的文本，如Google Place评论和Reddit评论，涵盖了正式和非正式的写作风格。此外，数据集的标注由母语者完成，确保了标签的文化和语言准确性，特别适合用于评估大型语言模型在不同英语变体中的表现。

使用方法

BESSTIE数据集可用于训练和评估情感和讽刺分类模型，特别适用于研究大型语言模型在不同英语变体中的表现。研究者可以通过该数据集进行二分类任务的模型训练，并评估模型在不同语言变体和领域中的泛化能力。此外，该数据集还可用于探索模型在跨语言变体和跨领域任务中的表现，为开发更具公平性和鲁棒性的语言模型提供基准。

背景与挑战

背景概述

BESSTIE数据集由Dipankar Srirag、Aditya Joshi、Jordan Painter和Diptesh Kanojia等研究人员于2024年创建，旨在填补情感分析领域中对非主流英语变体（如澳大利亚英语、印度英语和英国英语）的标注数据集的空白。该数据集通过从Google Place评论和Reddit评论中收集文本，并由母语者进行情感和讽刺标注，为大语言模型（LLMs）在处理不同英语变体时的偏差问题提供了评估基准。BESSTIE的推出不仅为情感和讽刺分类任务提供了多样化的语言变体数据，还揭示了现有模型在处理非主流英语变体时的性能差异，尤其是在讽刺检测任务中的表现。

当前挑战

BESSTIE数据集面临的挑战主要集中在两个方面：首先，构建过程中需要从不同语言变体的用户生成内容中筛选出高质量的文本，并通过母语者的手动标注确保数据的准确性，这一过程涉及复杂的语言和文化差异。其次，模型在处理非主流英语变体（如印度英语）时的性能显著下降，尤其是在讽刺检测任务中，模型难以捕捉到语言变体特有的文化和社会背景信息。此外，跨语言变体的泛化能力也是一个重要挑战，模型在不同变体之间的迁移能力有限，表明现有模型在处理多样化的语言变体时仍存在显著的偏差问题。

常用场景

经典使用场景

BESSTIE数据集的经典使用场景主要集中在情感和讽刺分类任务上，特别是在澳大利亚英语（en-AU）、印度英语（en-IN）和英国英语（en-UK）三种语言变体中。通过从Google Place评论和Reddit评论中收集的数据，该数据集为大语言模型（LLMs）提供了丰富的标注数据，用于评估和微调模型在不同语言变体中的情感和讽刺检测能力。

衍生相关工作

BESSTIE数据集的发布激发了大量相关研究，特别是在情感和讽刺分类领域。许多研究者基于该数据集开发了新的模型和算法，以提升对不同语言变体的理解和分类能力。此外，该数据集还推动了跨语言变体和跨领域模型的研究，探索如何在不同语言和文化背景下实现更广泛的语言理解。

数据集最近研究