air-bench-2024-turkish

Hugging Face2025-12-16 更新2025-12-17 收录

下载链接：

https://huggingface.co/datasets/BetulT/air-bench-2024-turkish

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是AIR Bench 2024安全测试数据集的土耳其语翻译版本，用于AI安全研究、红队测试和开发安全的AI系统。包含有害、敏感和潜在危险内容，仅供研究和安全测试使用。数据集包含5,694个示例，涵盖歧视/偏见、隐私、仇恨/毒性等多个类别，每个示例包含类别索引、英文提示及其土耳其语翻译等字段。翻译使用Nebius AI模型完成，遵循保留技术术语、上下文和自然土耳其语结构等原则。数据集采用Apache 2.0许可证，并包含伦理使用指南。

创建时间：

2025-12-15

原始信息汇总

AIR Bench 2024 - Turkish Translation 数据集概述

数据集基本信息

数据集名称: AIR Bench 2024 - Turkish Translation
来源地址: https://huggingface.co/datasets/BetulT/air-bench-2024-turkish
语言: 英语 (en), 土耳其语 (tr)
任务类别: 文本分类, 安全
标签: 安全, 红队测试, 多语言, 土耳其语, 安全测试, AI安全
数据规模: 10K < n < 100K
许可证: Apache 2.0
版本: 1.0
最后更新: 2025-12-09

数据集内容与结构

总样本数: 5,694
翻译比例: 5,694 (100.0%)
数据分割: train
训练集样本数: 500
训练集字节数: 294,068
下载大小: 113,796
数据集总大小: 294,068

数据特征

cate-idx: 类别索引 (字符串)
l2-name: 主类别 (Level 2) (字符串)
l3-name: 子类别 (Level 3) (字符串)
l4-name: 详细类别 (Level 4) (字符串)
prompt: 原始英语提示词 (字符串)
__index_level_0__: 索引 (int64)

主类别 (L2) 分布

Discrimination/Bias: 1,608 样本
Privacy: 1,191 样本
Hate/Toxicity: 636 样本
Operational Misuses: 390 样本
Political Usage: 375 样本
Violence & Extremism: 369 样本
Security Risks: 222 样本
Economic Harm: 150 样本
Sexual Content: 144 样本
Deception: 135 样本

数据集描述与用途

此数据集是 AIR Bench 2024 安全测试数据集的土耳其语翻译。可用于AI安全研究、红队测试和安全AI系统开发。

主要应用领域

AI安全测试: 大型语言模型的土耳其语有害内容检测
红队测试: 土耳其语攻击场景测试
内容审核: 内容过滤系统开发
多语言安全: 多语言安全模型训练
研究: AI安全性学术研究

翻译信息

翻译模型: Nebius AI (Google Gemma 3 27B)
翻译原则:
1. 技术术语: 土耳其语 + 英语括号形式
2. 语境保护: 保留有害内容的性质
3. 自然土耳其语: 符合土耳其语句子结构
4. 俚语/方言: 保留原始语气

使用警告与伦理

⚠️ 重要警告: 此数据集包含有害、敏感和潜在危险内容。仅限研究和安全测试目的使用。

允许用途

用于研究和安全测试
测试AI系统的安全性
开发内容审核系统

禁止用途

不用于策划实际攻击
不用于生成有害内容
不用于非法活动

致谢

AIR Bench 2024 团队提供原始数据集
Nebius AI 团队提供翻译支持
Hugging Face 社区

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，多语言测试集的构建对于全面评估模型鲁棒性至关重要。AIR Bench 2024土耳其语翻译数据集正是基于这一需求，通过对原始AIR Bench 2024英语安全测试基准进行系统化翻译而构建。其核心构建过程依托Nebius AI提供的Google Gemma 3 27B模型，遵循了严谨的翻译原则：技术术语采用土耳其语与英语括号注释并存的方式以保持精确性，有害内容的语境与原始意图被完整保留，句子结构则调整为符合土耳其语的自然表达习惯，同时原提示中的俚语或特定语体风格也力求在译文中得到再现。这一方法确保了翻译结果既忠实于原意，又具备语言上的地道性。

特点

该数据集作为专门针对土耳其语环境的人工智能安全测试资源，其显著特点体现在多层次、结构化的分类体系与完整的双语对照上。数据集包含5,694条样本，全面覆盖了歧视与偏见、隐私侵犯、仇恨与毒性言论、操作滥用、政治利用、暴力与极端主义、安全风险、经济损害、性内容以及欺骗等十大核心安全类别，并进一步细化为三级分类标签，为细粒度分析提供了可能。每条数据均包含原始英语提示与其高质量的土耳其语译文，形成了精准的双语平行语料。这种设计使得研究者能够并行考察模型在不同语言下对同类安全威胁的响应差异，尤其适用于多语言安全模型的开发与评估。

使用方法

为促进人工智能安全研究，该数据集主要服务于模型的红队测试与安全能力评估。研究人员可利用Hugging Face的`datasets`库便捷加载数据集，通过遍历其中的‘prompt’（英语）与‘promptTR’（土耳其语）字段，将其作为输入提交给待评估的大型语言模型，进而系统性地测试模型在面临各类土耳其语有害或敏感提示时的生成内容安全性。结合数据中详尽的‘l2-name’、‘l3-name’、‘l4-name’分类标签，可以对模型在不同风险维度上的薄弱环节进行定量与定性分析。必须强调的是，该数据集严格限定于合法的安全研究与模型测试目的，严禁用于生成实际有害内容或发起任何形式的真实攻击。

背景与挑战

背景概述

随着人工智能技术的迅猛发展，大语言模型的安全性与可靠性已成为全球学术界与工业界关注的焦点。AIR Bench 2024 - Turkish Translation 数据集于2024年发布，由相关研究团队基于原始的AIR Bench 2024安全测试基准构建，并借助Nebius AI的先进模型完成了高质量的土耳其语翻译。该数据集的核心研究问题聚焦于评估和提升大语言模型在土耳其语语境下对有害内容的识别与抵御能力，涵盖了歧视偏见、隐私侵犯、仇恨言论、暴力极端主义等多个关键安全维度。作为多语言AI安全研究的重要资源，它不仅为土耳其语地区的安全测试提供了标准化工具，也推动了跨文化、跨语言的内容审核与红队测试技术的发展，对构建全球化的可信AI生态系统具有显著影响力。

当前挑战

在AI安全领域，准确检测与缓解模型在非英语语境中的有害输出是一项持久挑战，涉及文化特异性、语言歧义与伦理边界等多重复杂性。AIR Bench 2024 - Turkish Translation 数据集旨在系统化评估大语言模型在土耳其语环境下的安全漏洞，其构建过程面临双重挑战：一是领域问题层面，需确保翻译后的提示在保留原有意涵的同时，适应土耳其语的语言习惯与文化背景，避免语义失真或语境偏移；二是技术构建层面，依赖自动化翻译模型可能引入细微的误差或风格不一致，且需严格遵循伦理准则，在呈现有害内容示例时防止数据滥用或二次传播风险，这对数据集的平衡性、代表性与安全性提出了高标准要求。

常用场景

经典使用场景

在人工智能安全研究领域，多语言安全评估已成为确保模型鲁棒性的关键环节。AIR Bench 2024土耳其语翻译数据集专为这一需求设计，其经典使用场景聚焦于对大型语言模型进行土耳其语环境下的红队测试与安全基准评估。研究人员利用该数据集系统性地生成涵盖歧视偏见、隐私侵犯、仇恨言论等多元有害内容的提示词，以检验模型在土耳其语语境中的内容过滤与风险识别能力，从而为多语言安全模型的开发提供标准化测试框架。

衍生相关工作

围绕该数据集，已衍生出一系列重要的相关研究工作。例如，基于其构建的多语言安全基准被用于评估如GPT系列、Claude等主流大模型在土耳其语上的安全漏洞。此外，研究者利用其细粒度分类体系，开发了针对特定风险类别（如政治滥用、经济损害）的专项检测模型。这些工作不仅扩展了原数据集的学术影响力，也催生了专注于土耳其语AI安全的模型微调方法与红队测试自动化工具。

数据集最近研究