five

bermaneh/codeswitching-sentiment-bias-exp4-perception-es-v1

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/bermaneh/codeswitching-sentiment-bias-exp4-perception-es-v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是实验4的结果,研究在西班牙语提示下,LLM模型对西班牙语和英语代码转换的感知偏差。数据集包含3221行数据,其中3219行具有完整的感知差异。研究问题探讨了在西班牙语提示下,英语中立/西班牙语标记的不对称性是否持续存在。数据集列包括句子ID、原始句子、扰动句子、交换单词、翻译、交换方向、SHAP排名、情感变化、原始描述、扰动描述等多项指标。

This dataset is the result of Experiment 4, investigating the perception bias of LLM models towards Spanish-English code-switching under Spanish prompts. The dataset contains 3221 rows, with 3219 having complete perception deltas. The research question explores whether the English-is-neutral/Spanish-is-marked asymmetry persists under Spanish prompts. Dataset columns include sentence ID, original sentence, perturbed sentence, swapped word, translation, swap direction, SHAP rank, sentiment delta, original description, perturbed description, and other metrics.
提供机构:
bermaneh
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源于一项关于代码转换文本中情感偏见与人格感知的系统性实验(实验四),旨在探究语言提示如何影响大语言模型对作者身份的推断。数据集的构建基于LinCE语料库中西班牙语-英语混合推文,选取了实验一中未经哈希标签替换的有效样本作为输入。研究者采用meta-llama/Llama-3.1-8B-Instruct模型,以西班牙语撰写所有系统和用户提示,对每条推文的原始版本和经过SHAP值最高词汇进行语言交换的扰动版本进行推理,最终生成3221条记录,其中3219条包含完整的人格感知增量数据。
特点
该数据集的核心特点在于其双维比较设计:一方面,每条记录同时包含原始推文和扰动推文下模型对作者在温暖度、专业性、可信度、攻击性四个维度的1-5分评分及其差值;另一方面,作为实验三的西班牙语复制版本,其所有列结构与英语提示版本完全一致,便于直接对比提示语言对偏见表达的影响。此外,数据集保留了句子级标识、交换词信息、SHAP排名、情感得分变化和原始SHAP集中度等细粒度属性,为探究语言切换与人格感知之间的复杂关系提供了丰富材料。
使用方法
研究者可利用本数据集开展多项分析任务:通过比较原始与扰动条件下的人格评分差异,量化特定词汇的代码转换对模型推断的影响;结合实验三的英语提示版本,检验语言提示是否调节西班牙语被视为有标记语言、英语被视为中性语言的感知不对称性;利用句级标识与SHAP排名,追踪不同语言方向(英语至西班牙语或西班牙语至英语)的交换如何改变模型对作者身份的类属推断。数据以CSV格式存储,可直接加载用于回归分析、差异检验或分类任务,并且每个描述字段附带的编码本分类(JSON格式)便于进行定性的内容分析。
背景与挑战
背景概述
在自然语言处理领域,语言模型对社会偏见的研究日益受到关注,尤其是代码切换(code-switching)场景下,模型如何感知语言变化所携带的社会身份信息。该数据集由Bermaneh等研究者创建,于近期发布,旨在探究大型语言模型(LLM)在使用西班牙语提示时,对西班牙语词汇插入是否仍表现出与英语提示下相同的“英语中性、西班牙语标记”不对称性。核心研究问题聚焦于:当LLM以西班牙语进行推理时,其对拉丁美洲身份的推断偏差是否会减弱或反转,抑或这种偏差已固化为模型的内在表征。该工作基于LinCE西班牙语-英语推特数据,通过SHAP分析选择关键词汇进行语言交换,并测量作者感知(温暖度、专业性、可信度、攻击性)的变化,为理解多语言模型中隐含的种族与语言偏见提供了重要基准,对公平性研究和模型调试具有深远影响。
当前挑战
该数据集所解决的领域问题包括:1) 语言模型在代码切换语境下,因语言提示不同而产生的社会身份推断偏差,尤其是西班牙语词汇插入导致模型更频繁推断“拉丁美洲”身份的系统性不对称;2) 提示语言(英语 vs. 西班牙语)如何调节或固化这一偏差,区分其源于提示动态抑或模型表征。在构建过程中,研究者面临多重挑战:需要从LinCE数据中筛选有效的西班牙语-英语混合推文(排除标签交换样本),并确保扰动前后句子语义连贯;利用SHAP值定位对情感贡献最大的词汇进行语言交换,同时控制扰动对整体情感的变化影响;设计跨两轮实验的可比列结构,使得西班牙语提示结果(实验4)能直接与英语提示结果(实验3)进行逐行对比;此外,还需处理因语言转换导致的元语用线索(如种族、文化暗示)在模型描述中的编码一致性,确保感知评分维度(温暖度、专业性等)在不同语言版本间具有可比性。
常用场景
经典使用场景
在跨语言与情感偏见研究的交汇处,该数据集被精心设计用于探究大型语言模型在西班牙语提示下对语言转换推文的感知偏见。通过对比英语提示下的结果,它成为剖析语言不对称性根源的利器,广泛应用于解码模型内在表征与提示语言效应之间微妙关系的学术探讨。
实际应用
在实际应用中,该数据集可服务于多语言社交平台的内容审核与偏见检测系统,帮助开发者识别并减轻模型对特定语言群体的刻板印象。它也为跨文化人工智能助手的设计提供了校准指南,确保其在处理西语-英语混合文本时能保持公正的感知判断。
衍生相关工作
该数据集是系列研究链条中的关键一环,直接衍生于针对英语提示的Experiment 3,并与前序情感偏见实验构成严谨的比较框架。它启发了后续关于提示语言、模型架构与训练数据文化偏好的深入工作,推动了多语言AI公平性评估方法论的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作