codeswitching-sentiment-bias-results-v1

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/bermaneh/codeswitching-sentiment-bias-results-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为codeswitching-sentiment-bias-results-v1，包含了一项实验的结果，该实验研究了在双语推文中单词语码转换（英语与西班牙语之间）对情感预测的影响。数据集基于SemEval 2020 Task 9语料库中的3,483条真实双语推文。实验使用了`cardiffnlp/twitter-roberta-base-sentiment-latest`模型和SHAP解释性方法。数据集包含原始推文、扰动后的推文、转换的单词、情感标签及分数、SHAP值等详细字段。实验结果表明，单词语码转换会导致情感预测的显著变化，其中38.4%的样本情感分数变化超过0.05，13.7%的样本情感标签发生变化。数据集适用于研究NLP模型中的语言依赖性偏见和语码转换对情感分析的影响。

创建时间：

2026-04-26

原始信息汇总

数据集概述：codeswitching-sentiment-bias-results-v1

该数据集记录了实验1的完整结果，旨在探究NLP模型是否存在语言依赖偏见——即在双语推文中将单个单词在英语和西班牙语之间互换，是否会显著改变模型的情绪预测结果。

实验设计

假设：NLP模型编码了语言依赖的偏见。在双语推文中互换一个单词（英语↔西班牙语）会可测量地改变模型的情绪预测。
模型：cardiffnlp/twitter-roberta-base-sentiment-latest
可解释性方法：SHAP（分区解释器，背景样本数=100）
输入数据集：基于 SemEval 2020 Task 9 语料库的 3,483 条真实双语推文

关键结果

指标	数值
尝试处理行数	3,483
成功处理行数	3,360
因翻译冲突跳过	117
无可翻译单词跳过	6
平均	Δ
最大	Δ
	Δ
标签改变的行数	459 / 3,360（13.7%）
英语→西班牙语互换	1,648
西班牙语→英语互换	1,712
SHAP排名=1（单词贡献最大）	2,590 / 3,360（77.1%）
SHAP排名>1	770 / 3,360（22.9%）

数据列说明

列名	说明
`sentence_id`	在原始筛选数据集中的行索引（0-based）
`original_sentence`	原始双语推文文本
`perturbed_sentence`	将一个单词通过 Helsinki-NLP 翻译互换后的推文
`swapped_word`	被翻译并替换的源单词
`translation`	翻译后的替换单词（若跳过则为 null）
`swap_direction`	互换方向：`en→es` 或 `es→en`
`shap_rank`	被互换单词在原始句子中按
`original_sentiment_label`	互换前的情绪标签：positive/neutral/negative
`original_sentiment_score`	原始标签的置信度得分 [0,1]
`perturbed_sentiment_label`	互换后的情绪标签
`perturbed_sentiment_score`	互换后标签的置信度得分 [0,1]
`sentiment_delta`	原始得分 − 互换后得分（有符号）
`label_changed`	互换后情绪标签是否改变
`original_shap_values`	原始句子中 token → SHAP 值的字典
`perturbed_shap_values`	互换后句子中 token → SHAP 值的字典
`skip_reason`	跳过原因：`translation_collision` / `no_translatable_word` / 处理成功则为 null

数据来源与实验参数

实验名称：codeswitching-sentiment-bias
作业编号：torch:7074434
集群：torch
制品状态：final
输入数据集：bermaneh/codeswitching-sentiment-bias-canary-v1
超参数：n_rows=3483, random_seed=42, min_word_len=2, max_new_tokens=20, shap_background_size=100

许可证

该数据集使用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

本数据集基于SemEval 2020 Task 9语料库中的3,483条真实双语推文构建，旨在探究单次英西混合语码切换对情感分析模型预测结果的影响。实验选取`cardiffnlp/twitter-roberta-base-sentiment-latest`作为情感分析模型，并利用SHAP（partition explainer）可解释性方法，以100条背景样本计算每个单词对情感预测的贡献值。构建过程中，对每条推文进行了单词语种切换操作——将其中某个英文单词替换为对应的西班牙语翻译（或反之），从而得到扰动后的句子。翻译过程借助Helsinki-NLP翻译模型完成，并记录了切换方向、被替换词及翻译结果。最终保留了3,360条成功处理的样本，排除了因翻译碰撞或无可译词导致的异常情况。

特点

该数据集的核心特色在于系统性地揭示了语言依赖偏见的存在：单次语码切换即可引发模型情感预测的可测量漂移。数据表中详细记录了原始与扰动后的情感标签、置信度分数及其变化量（sentiment_delta），并标记了标签是否发生改变（label_changed）。结果显示，平均绝对情感变化量为0.0674，最大可达0.8286，其中38.4%的样本变化量超过0.05，13.7%的样本发生了标签翻转。同时，通过SHAP排名（shap_rank）可判断被替换词在原始句子中的重要性：77.1%的扰动操作针对的是SHAP值最高的单词，表明情感敏感词汇的语码切换更易引发预测偏差。

使用方法

研究者可直接加载此数据集用于分析英西混合语码切换情境下的情感偏见模式，验证多语言模型中潜在的跨语言语义不对称问题。数据列提供了完整的实验复现信息，包括原始与扰动句子、切换方向、SHAP值字典及跳过原因。使用者可结合`sentiment_delta`和`label_changed`列量化偏见程度，或利用`original_shap_values`与`perturbed_shap_values`深入探究单词级贡献变化。该数据适用于偏见检测、可解释性分析及混合语言情感建模等下游任务，并支持与输入数据集`bermaneh/codeswitching-sentiment-bias-canary-v1`进行关联分析。

背景与挑战

背景概述

该数据集由Berman等人于2024年创建，聚焦于自然语言处理中一个前沿且棘手的议题——双语语码转换情境下的情感偏差。核心研究问题在于，将一句双语推文中的单个词语在英语和西班牙语之间互换后，预训练情感分类模型的预测结果是否会发生显著变化。基于SemEval 2020 Task 9语料库中的3,483条真实双语推文，研究者采用cardiffnlp/twitter-roberta-base-sentiment-latest模型与SHAP解释方法系统量化了这一语言依赖偏差。数据集揭示了近14%的样本因单词语码转换而发生标签翻转，显著挑战了当前模型在跨语言场景下的稳健性与公平性，为多语言情感分析的可解释性与偏差研究提供了关键基准。

当前挑战

该数据集所解决的领域挑战在于：现有情感分类模型在单语环境表现良好，但在双语语码转换（如英西混用）中，模型可能内隐地编码与语言身份相关的偏差，导致单一词语的语码转换即诱发不可忽略的情感跃迁。构建过程中面临两大技术挑战：其一，双语推文的语码转换点识别与可替换词语筛选需避免翻译歧义，实验中因翻译碰撞跳过了117条样本；其二，SHAP解释的因果归因需在词级别上分离语码转换效应与词语语义改变效应，以确证偏差来自语言而非内容。此外，仅限定单一模型与单向语码对（英↔西）的实验设计，限制了结论向其他语言对与架构的泛化能力。

常用场景

经典使用场景

该数据集聚焦于双语语码转换场景下的情感分析偏移现象，利用SemEval 2020 Task 9语料库中3,483条真实双语推文，通过系统性地将单个词语在英语与西班牙语之间进行替换，探究语言选择对情感预测结果的影响。研究者采用cardiffnlp/twitter-roberta-base-sentiment-latest模型并结合SHAP可解释性方法，量化了每一次单词语码转换所引发的置信度变化与标签翻转，为理解多语言NLP模型中隐含的语言依赖偏见提供了精确的实验数据支撑。

解决学术问题

该数据集系统性地验证了预训练情感模型在双语语境中存在的语言依赖偏见问题，揭示了当仅替换一个关键词语时，约13.7%的样本发生情感标签翻转，且超过三分之一的样本置信度变化超过0.05。这一发现挑战了多语言模型语言中立性的假设，为跨语言情感分析、语码转换研究及模型公平性评估提供了重要的实验证据，推动了学界对语言身份如何影响机器学习决策的深入思考。

衍生相关工作

该数据集衍生了一系列关于语言切换点检测、多语言模型解释性分析以及偏见缓解策略的经典工作。后续研究沿用了该数据集的实验范式，将单词语码转换扩展到短语级与句级切换，进一步探索了不同粒度语言切换对模型行为的影响。此外，基于该数据集的SHAP归因分析结果，研究人员提出了对抗性数据增强和语言感知微调等方法来减轻语言依赖偏见，推动了多语言NLP系统中公平性与可解释性方向的持续创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集