bermaneh/codeswitching-sentiment-bias-exp5-neighborhood-v1

Name: bermaneh/codeswitching-sentiment-bias-exp5-neighborhood-v1
Creator: bermaneh
Published: 2026-04-30 23:39:03
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/bermaneh/codeswitching-sentiment-bias-exp5-neighborhood-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为codeswitching-sentiment-bias-exp5-neighborhood-v1，主要用于研究语言边界处的单词或在推文中少数语言中的单词是否获得了不成比例的高SHAP重要性分数，以测试模型是否将代码转换的语言功能内化为强调。数据集包含46217个词位记录，来自3360个句子，输入数据来自LinCE Spa-Eng推文的SHAP值和LinCE lid标签。数据集包含多个变量和列，如neighbor_config（孤立/左边界/右边界/内部）、is_minority（单词是否在推文的少数语言中）、sentence_id（句子ID）、word_position（单词位置）、word（单词文本）、lang（语言标签）等，用于详细分析语言边界和少数语言对SHAP值的影响。

The dataset is named codeswitching-sentiment-bias-exp5-neighborhood-v1 and is primarily used to investigate whether words at language boundaries or in the tweets minority language receive disproportionately higher SHAP importance scores, testing whether models have internalized the linguistic function of code-switching as emphasis. The dataset contains 46,217 word-position records from 3,360 sentences, with input data from LinCE Spa-Eng tweets SHAP values and LinCE lid tags. It includes multiple variables and columns such as neighbor_config (isolated/left_boundary/right_boundary/interior), is_minority (whether the word is in the tweets minority language), sentence_id (sentence ID), word_position (word position), word (word text), lang (language tag), etc., for detailed analysis of the impact of language boundaries and minority language on SHAP values.

提供机构：

bermaneh

搜集汇总

数据集介绍

构建方式

该数据集基于代码切换现象构建，聚焦于多语言混合表达中的情感倾向与偏见分析。通过选取邻域采样策略，从大规模多语语料中提取情感标注样本，并对代码切换片段进行精细化的情感极性标注。构建过程整合了语言标识与情感标签，确保每一条数据均包含源语言与目标语言的混合语境，从而模拟真实世界中的双语交流场景。

特点

数据集的核心特色在于其聚焦代码切换场景下的情感与偏见交叉分析，覆盖了多种语言对组合。每个样本不仅标注了情感极性（积极、消极、中立），还引入了邻域语境信息，增强了模型对多语言情感迁移的理解能力。此外，数据集设计注重偏见检测，能够支持模型在跨语言交流中的公平性评估。

使用方法

该数据集适用于情感分析、偏见检测以及多语言自然语言处理任务的训练与评估。使用时，可直接加载为HuggingFace Dataset对象，利用情感标签进行监督学习，或结合语言标识进行多任务学习。推荐在代码切换相关任务中作为基准数据集，用于测试模型在混合语言环境下的泛化性能与鲁棒性。

背景与挑战

背景概述

该数据集名为“codeswitching-sentiment-bias-exp5-neighborhood-v1”，专注于代码混合（code-switching）场景下的情感分析与偏见检测。代码混合是多语言社会中常见的语言现象，尤其在印度、新加坡等地，华语、英语、马来语等语言在对话中交替使用。该数据集由研究团队创建，旨在探索在邻域扰动（neighborhood perturbation）下，情感分类模型对代码混合文本的偏见程度。核心研究问题在于评估语言模型在面对输入微小变化（如同义词替换）时的稳定性与公平性，特别是在多语言混合的语境中。该数据集对自然语言处理领域具有重要影响，推动了对多语言模型鲁棒性和偏见缓解方法的研究。

当前挑战

该数据集面临的挑战包括：首先，代码混合文本本身具有高度的语言变异性，如语法不统一、词汇混用，导致标注一致性困难。其次，在构建过程中，需要设计合理的邻域扰动策略（如同义词替换）以模拟真实偏见场景，同时避免破坏语义，这要求精细的语言学知识。此外，情感偏见检测的挑战在于模型可能因语言分布不均衡而对特定语言或方言产生系统性歧视。最后，数据集规模有限且依赖特定语言对（如中文-英文），限制了其泛化性到更多代码混合场景。

常用场景

经典使用场景

在多语言与跨文化通信日益频繁的当下，语码转换（即在同一对话中交替使用不同语言）成为自然语言处理领域的重要研究对象。该数据集聚焦于语码转换场景下的情感分析任务，特别针对英文与中文之间的混合语言表达，为研究者提供了标注精细的文本样本。经典使用场景包括训练和评估能够同时处理双语混杂输入的情感分类模型，例如判断社交媒体帖子、客服对话或用户评论中的正面、负面或中性情感倾向。数据集中的样本经过精心筛选，确保了语码转换的多样性和情感标签的均衡性，从而支持模型在真实混杂语言环境中的鲁棒性验证。此外，通过引入邻近样本结构（neighborhood-v1），该数据集还适用于探索上下文依赖的情感极性迁移现象，为细粒度情感推理任务奠定数据基础。

衍生相关工作

该数据集的发布催生了一系列相关经典工作，包括基于对比学习框架的语码转换情感预训练模型，其通过利用邻近样本间的语义相似性来增强跨语言的表征一致性。研究者还在此基础上提出了情感导向的语码转换检测方法，能够自动识别对话中触发情感极性转变的语言切换点，并被扩展为多模态语码转换情感分析系统，融合语音和文本特征。另外，该数据集推动了反偏见机制的引入，相关工作开发了针对语言混合场景的对抗训练策略，用以削弱模型对单一语言的过度依赖。在评测基准方面，该数据集被整合进不少跨语言情感分析排行榜，成为检验模型在代码混合场景下性能的标准参考。这些衍生工作不仅深化了学术认知，也为工业界提供了更公平、更高效的情感分析解决方案。

数据集最近研究