safety-SeGa

Name: safety-SeGa
Creator: HiTZ zentroa
Published: 2025-11-19 22:20:29
License: 暂无描述

Hugging Face2025-11-19 更新2025-11-20 收录

下载链接：

https://huggingface.co/datasets/HiTZ/safety-SeGa

下载链接

链接失效反馈

官方服务：

资源简介：

Safety-SeGa是一个三语（巴斯克语、西班牙语、英语）平行语料库，设计用于评估大型语言模型的安全性表现。它包含不安全和安全的提示，用于区分模型是否能够正确拒绝不安全提示而不错误地拒绝安全提示。

Safety-SeGa is a trilingual (Basque, Spanish, English) parallel corpus designed to evaluate the safety performance of large language models (LLMs). It contains both unsafe and safe prompts, which are utilized to assess whether a model can correctly reject unsafe prompts without incorrectly rejecting safe ones.

提供机构：

HiTZ zentroa

创建时间：

2025-11-19

原始信息汇总

Safety-SeGa 数据集概述

数据集简介

Safety-SeGa 是一个巴斯克语-西班牙语-英语三语平行数据集，专门用于评估大语言模型的安全行为。该数据集包含不安全提示和安全提示，通过对比模型对这两类提示的反应来评估其安全性表现。

核心特征

语言支持：巴斯克语(EU)、西班牙语(ES)、英语(EN)
数据对齐：所有样本在三种语言中完全对齐
提示类型：包含安全(safe)和不安全(unsafe)两类提示
不安全提示明显违反安全准则
安全提示在风格或主题上相似但不包含有害内容

评估指标

违规率(VR)：模型未能拒绝的不安全提示比例
错误拒绝率(FRR)：模型错误拒绝的安全提示比例

数据结构

数据字段

字段	类型	描述
question	字符串	输入问题
type	字符串	提示类型（safe/unsafe）
category	字符串	危害类别

危害类别

暴力
自残
错误信息
个人数据
非法活动
毒品
儿童剥削
恐怖主义
露骨内容

学术背景

灵感来源：XSTest (Röttger et al., 2024)
研究重点：将多语言安全评估扩展到低资源语言环境，特别关注巴斯克语

引用信息

如需使用 Safety-SeGa，请引用：

@inproceedings{sainz-etal-2025-instructing, title = "Instructing Large Language Models for Low-Resource Languages: A Systematic Study for {B}asque", author = "Sainz, Oscar 等", booktitle = "Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing", year = "2025", url = "https://aclanthology.org/2025.emnlp-main.1484/", doi = "10.18653/v1/2025.emnlp-main.1484" }

搜集汇总

数据集介绍

构建方式

在低资源语言安全评估领域，Safety-SeGa数据集采用三语平行架构构建，涵盖巴斯克语、西班牙语和英语的完整对齐样本。其构建过程严格遵循XSTest方法论，通过人工标注与自动化验证相结合的方式，将提示文本划分为明确违反安全准则的危险类别与表面相似但内容无害的安全类别。每个样本均标注了具体的危害类型，包括暴力、自残、错误信息等九大范畴，确保数据标注的精细度与一致性。

使用方法

研究人员可通过加载标准化的数据字段结构，直接提取问题文本、类型标签与危害分类信息进行模型评估。使用时应分别计算模型对危险提示的违规率与对安全提示的误拒率，通过对比分析揭示模型在多语言环境下的安全响应模式。该数据集兼容主流机器学习框架，支持端到端的评估流程构建，特别适用于跨语言安全泛化能力的研究场景。

背景与挑战

背景概述

随着多语言大语言模型的快速发展，如何确保其在低资源语言环境中的安全性能成为关键研究议题。Safety-SeGa数据集由Oscar Sainz等研究者于2025年构建，旨在系统评估巴斯克语、西班牙语和英语三语并行场景下的模型安全边界。该数据集通过精心设计的平行语料，聚焦于区分明显违反安全准则的提示与表面相似但内容安全的提示，为低资源语言的安全对齐研究提供了重要基准。其创新性体现在将安全评估框架延伸至资源稀缺的巴斯克语领域，填补了现有安全评测体系在多语言覆盖度的空白。

当前挑战

构建过程面临双重挑战：在领域问题层面，需精准界定安全与不安全内容的模糊边界，特别是在涉及暴力、自残等九类敏感主题时保持分类一致性；在技术实现层面，低资源语言的语法特性与文化语境增加了平行语料的质量控制难度，要求翻译过程既保持语义等价性又不破坏安全属性。此外，三语对齐需克服巴斯克语与印欧语系的结构差异，确保每个提示在不同语言中都能准确触发预期的模型安全响应机制。

常用场景

经典使用场景

在语言模型安全评估领域，Safety-SeGa数据集通过构建巴斯克语、西班牙语和英语的三语平行语料，为模型安全性测试提供了标准化框架。其核心设计包含明确违反安全准则的危险提示与表面相似但内容无害的安全提示对比组，能够系统评估模型在拒绝危险内容与避免误拒良性内容之间的平衡能力。该数据集常被用于多语言环境下模型安全边界的基准测试，特别关注低资源语言的泛化表现。

解决学术问题

该数据集有效解决了多语言安全评估中存在的两个关键学术问题：一是传统安全测试缺乏对低资源语言的覆盖，二是模型过度防御导致的误拒现象。通过量化违规率与误拒率指标，研究者能够精准识别模型在跨语言场景下的安全漏洞，推动构建更细粒度的安全评估体系。其平行语料结构为研究语言特性对安全决策的影响提供了实证基础，填补了巴斯克语等语言在AI安全研究中的空白。

实际应用

在实际部署场景中，Safety-SeGa被广泛应用于多语言聊天机器人、内容审核系统及跨境数字服务平台的安全调优。企业利用其分类体系对模型进行针对性强化训练，显著降低在医疗咨询、金融客服等敏感场景中的安全风险。政府部门可借助该数据集构建本土化内容安全标准，特别是在巴斯克语地区的公共服务数字化进程中，确保AI系统既保持文化敏感性又符合伦理规范。

数据集最近研究