SweEval

Name: SweEval
Creator: Oracle AI, Indian Institute of Information Technology Ranchi, TD Securities, Columbia University, Hanyang University
Published: 2025-05-23 06:56:58
License: 暂无描述

arXiv2025-05-23 更新2025-05-27 收录

下载链接：

https://github.com/amitbcp/multilingual_profanity

下载链接

链接失效反馈

官方服务：

资源简介：

SweEval是一个跨语言的基准数据集，用于评估大型语言模型（LLM）在处理敏感语言时的表现。该数据集由多个现实世界场景组成，包括不同的写作风格和语境。数据集包含针对企业和非正式语境的手动创建的指令提示，以及25个来自高资源和低资源语言的咒骂词。这些咒骂词被整合到英语提示中，以评估模型对当地语言细微差别和文化敏感性的理解。SweEval旨在帮助研究人员开发符合道德标准的AI系统，特别是在企业和跨文化环境中。

SweEval is a cross-lingual benchmark dataset designed to evaluate the performance of Large Language Models (LLMs) when handling sensitive language. This dataset comprises multiple real-world scenarios covering diverse writing styles and contexts. It contains manually crafted instruction prompts tailored for corporate and informal contexts, alongside 25 curse words from both high-resource and low-resource languages. These curse words are integrated into English prompts to assess the model's understanding of the subtle nuances and cultural sensitivities of local languages. SweEval aims to assist researchers in developing ethically aligned AI systems, particularly in corporate and cross-cultural environments.

提供机构：

Oracle AI, Indian Institute of Information Technology Ranchi, TD Securities, Columbia University, Hanyang University

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

SweEval数据集的构建基于多语言和跨文化背景下的企业级安全需求，通过精心设计的109个英文提示模板，覆盖正式与非正式场景，并嵌入25种不同语言的粗俗词汇。研究团队采用两种构建方式：多语言粗俗词汇直接嵌入（Case 1）和非拉丁语系词汇音译处理（Case 2），最终形成每种语言2,725条测试样本。数据收集过程严格遵循文化敏感性原则，由母语者验证词汇的冒犯程度，并通过正负情感语调、形式化程度等维度构建多维评估体系。

特点

该数据集的核心特征体现在三个方面：首先，首创性地聚焦多语言粗俗用语检测，涵盖英语、西班牙语等8种高低资源语言；其次，通过音译技术处理印度语系词汇，揭示模型对非拉丁字符的识别盲区；第三，创新性地模拟企业真实场景，包括销售提案、客户服务等专业语境，同时设置情感极性（积极/消极）和形式化程度（正式/非正式）的双重评估维度，全面检验模型的文化适应性与伦理边界。

使用方法

使用SweEval需遵循三阶段流程：首先加载预构建的测试提示，通过标准API调用目标LLM生成响应；其次采用人工标注与自动化结合的方式，依据是否包含指定粗俗词汇和任务完成度进行有害性判定；最后计算Harmful_Rate指标评估模型安全性。研究建议配合ToxiGen等基准进行交叉验证，重点关注模型在印度语系等低资源语言中的表现差异。警告：数据集包含冒犯性内容，需在受控环境中使用并遵循伦理审查流程。

背景与挑战

背景概述

SweEval是由Oracle AI、印度信息技术学院兰契分校、TD Securities、哥伦比亚大学和汉阳大学的研究团队于2025年推出的跨语言企业安全基准测试数据集，专注于评估大型语言模型（LLMs）在处理敏感语言时的表现。该数据集旨在模拟真实场景，通过不同语气（积极或消极）和上下文（正式或非正式）的提示，测试模型在包含特定脏词的任务中的反应。SweEval的推出填补了现有安全评估基准在脏话和亵渎语言处理方面的空白，为构建符合伦理的AI系统提供了重要工具。

当前挑战

SweEval面临的挑战主要包括：1) 领域问题挑战：评估LLMs在不同语言和文化背景下对脏话的识别和抵抗能力，尤其是在低资源语言中模型表现较差的问题；2) 构建过程挑战：脏词的选择需要考虑文化差异和语言变体，确保数据集覆盖多种语言的同时避免偏见；提示设计需要平衡真实性和伦理性，避免生成有害内容；3) 评估挑战：需要开发准确的指标来衡量模型对不当指令的抵抗能力，并确保评估过程不会无意中传播有害语言。

常用场景

经典使用场景

SweEval数据集专为评估大型语言模型（LLMs）在跨文化和多语言环境中处理敏感语言的能力而设计。其经典使用场景包括模拟企业通信任务，如撰写电子邮件、销售提案和客户支持互动，同时要求模型在正式和非正式语境下生成包含特定脏话的文本。通过这种方式，SweEval能够全面测试模型在伦理对齐、文化敏感性和语言理解方面的表现，尤其关注模型在低资源语言中的安全性。

衍生相关工作

SweEval的发布催生了一系列相关研究，包括多语言安全对齐框架（如XSafety的跨文化评估扩展）、音译词嵌入优化方法（针对Indic语言的拉丁转写优化），以及基于案例分析的模型防御策略（如针对印地语脏话的对抗训练）。其方法论还启发了后续工作如UniSwearBench，将脏话评估扩展到50种语言，进一步提升了多语言AI安全的评估广度。

数据集最近研究