walledai/CSRT

Name: walledai/CSRT
Creator: walledai
Published: 2024-10-18 19:09:29
License: 暂无描述

Hugging Face2024-10-18 更新2025-04-08 收录

下载链接：

https://hf-mirror.com/datasets/walledai/CSRT

下载链接

链接失效反馈

官方服务：

资源简介：

CSRT数据集是一个用于评估大型语言模型（LLM）的多语言能力和安全性的代码切换红队技术。该数据集包含315个代码切换查询，涉及多达10种语言，能够引发模型的各种不良行为。它通过结合代码切换查询来测试模型在多语言理解和安全性方面的表现。

The CSRT dataset is a code-switching red-teaming technique for evaluating the multilingual capabilities and safety of large language models (LLMs). It consists of 315 code-switching queries involving up to 10 languages, designed to elicit a variety of undesirable behaviors from the model. The dataset tests the models performance in multilingual understanding and safety through the combination of code-switching queries.

提供机构：

walledai

搜集汇总

数据集介绍

构建方式

CSRT数据集源自于一项针对大语言模型（LLMs）的代码切换红队测试研究，旨在评估模型在多语言环境下的安全性与理解能力。该数据集通过精心设计的315条代码切换查询构建而成，每条查询融合了至多10种语言，以激发模型产生一系列不良行为。构建过程中，研究团队结合了自动化生成与人工审核，确保查询的有效性与多样性，从而系统性地测试LLMs在多语言场景下的脆弱性。

特点

CSRT数据集的核心特点在于其创新的代码切换红队测试方法，能够同时评估LLMs的多语言能力与安全性。与现有基准相比，该数据集在攻击成功率上显著提升，较英文方法高出46.7%。此外，数据集覆盖10种语言的代码切换模式，并包含对有害响应的多维度分析，如缩放定律、不安全行为类别及最优输入条件，展现出高度的可扩展性与实证价值。

使用方法

使用CSRT数据集时，研究者可直接加载HuggingFace上的预划分训练集，该集包含315条样本，每条样本由提示（prompt）、原始文本（original）及危害类别（harms）组成。数据集适用于文本生成任务，用户可通过标准的数据加载接口（如datasets库）进行访问，并基于提供的代码切换查询对LLMs进行红队测试，以评估其安全性与多语言理解能力。

背景与挑战

背景概述

在大型语言模型（LLM）蓬勃发展的浪潮中，其多语言能力与安全性评估成为学界关注的焦点。尽管现有研究揭示了LLM在跨语言任务中的潜力，但传统的评估基准往往依赖人工标注，难以全面覆盖模型在面对混合语言输入时的脆弱性。在此背景下，由Yoo、Yang和Lee等研究人员于2024年提出的CSRT（Code-Switching Red-Teaming）数据集应运而生。该数据集旨在通过语码转换这一自然语言现象，构建一种创新的红队测试方法，同时考察LLM的多语言理解能力与安全防护水平。CSRT包含315条精心设计的语码转换查询，融合多达10种语言，能够有效触发模型产生一系列不当行为。该研究被提交至NeurIPS 2024数据集与基准赛道，通过对十种先进LLM的广泛实验，证明了CSRT在攻击成功率上较传统英文红队方法提升46.7%，为多语言安全性评估提供了全新视角与有力工具。

当前挑战

CSRT数据集所面临的挑战首先体现在领域问题的复杂性上：语码转换作为多语言社区中的常见现象，要求LLM在混合语言输入下同时保持语义理解与安全边界，而现有模型往往在此类场景中暴露出严重的脆弱性，例如生成有害内容或偏离指令。此外，数据集的构建过程亦充满挑战，包括如何高效生成高质量、多样化的语码转换攻击样本，确保其覆盖广泛的不安全行为类别，并避免对单一语言对的过度依赖。研究团队在16K样本的消融实验中，需应对缩放定律的影响、最优输入条件的确定以及跨语言扩展性的验证等问题，这些均对数据集的代表性、鲁棒性与实用性提出了严苛要求。

常用场景

经典使用场景

CSRT数据集的核心应用场景在于通过语码转换（Code-Switching）技术对大型语言模型（LLM）进行红队测试（Red-Teaming），以评估其在多语言环境下的安全性与鲁棒性。该数据集包含315条精心构造的语码转换查询，融合了多达10种语言，旨在诱发模型产生一系列不当行为。研究者利用该数据集对十种前沿LLM进行系统性测试，发现CSRT能够比传统的单语言红队方法多触发46.7%的攻击成功率，从而揭示了模型在多语言交叉语境中隐匿的安全漏洞。这一场景为多语言NLP系统的安全性评估提供了全新的范式，尤其适用于检验模型在代码混合输入下的防御能力。

衍生相关工作

CSRT数据集催生了一系列富有影响力的衍生工作。其中，研究者基于该数据集开展了16K样本的消融研究，深入分析了语码转换攻击的缩放定律、不安全行为类别以及最优生成条件，揭示了输入语言组合与攻击成功率之间的非线性关系。此外，该数据集还激发了多语言红队测试的扩展性研究，例如利用单语言数据自动生成语码转换攻击提示的方法，从而降低了对人工标注的依赖。这些工作不仅深化了对LLM多语言安全性的理解，也为构建更全面的多语言评估体系提供了方法论支持，推动了NeurIPS等顶级会议上关于多语言与安全交叉领域的研究进展。

数据集最近研究