TEMP_missing_rt_data_with_judgements

Name: TEMP_missing_rt_data_with_judgements
Creator: Collinear AI
Published: 2025-05-28 22:11:20
License: 暂无描述

Hugging Face2025-05-28 更新2025-05-29 收录

下载链接：

https://huggingface.co/datasets/collinear-ai/TEMP_missing_rt_data_with_judgements

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含英语和阿拉伯语提示及其回应的安全判断的多语言数据集，用于研究模型对特定提示的响应和安全性评估。

提供机构：

Collinear AI

创建时间：

2025-05-28

原始信息汇总

数据集概述

基本信息

数据集名称: TEMP_missing_rt_data_with_judgements
数据集地址: https://huggingface.co/datasets/collinear-ai/TEMP_missing_rt_data_with_judgements
下载大小: 6,905,602 字节
数据集大小: 17,183,244 字节

数据集结构

特征

id: 字符串类型，唯一标识符
prompt: 字符串类型，提示文本
arabic_prompt: 字符串类型，阿拉伯语提示文本
source: 字符串类型，数据来源
attack_category: 字符串类型，攻击类别
harm_category: 字符串类型，危害类别
subcategory: 字符串类型，子类别
allam_7b_response: 字符串类型，Allam 7B模型的响应
llama2_7b_response: 字符串类型，Llama2 7B模型的响应
llama2_7b_safety_judgement: 整型，Llama2 7B模型的安全判断
allam_7b_safety_judgement: 整型，Allam 7B模型的安全判断
allam_7B_arabic_response: 字符串类型，Allam 7B阿拉伯语模型的响应
allam_34B_arabic_response: 字符串类型，Allam 34B阿拉伯语模型的响应
falconh_h1_34B_arabic_response: 字符串类型，Falconh H1 34B阿拉伯语模型的响应
allam_7B_arabic_safety_judgement: 整型，Allam 7B阿拉伯语模型的安全判断
allam_34B_arabic_safety_judgement: 整型，Allam 34B阿拉伯语模型的安全判断
falconh_h1_34B_arabic_safety_judgement: 整型，Falconh H1 34B阿拉伯语模型的安全判断

数据分割

english:
- 字节数: 8,591,622
- 样本数: 1,176
arabic:
- 字节数: 8,591,622
- 样本数: 1,176

配置信息

默认配置:
- 英语数据文件路径: data/english-*
- 阿拉伯语数据文件路径: data/arabic-*

搜集汇总

数据集介绍

构建方式

TEMP_missing_rt_data_with_judgements数据集通过系统化的数据采集和标注流程构建而成，涵盖了英语和阿拉伯语两种语言环境下的多样化提示词及其对应的模型响应。数据来源经过严格筛选，确保覆盖多种攻击类别和危害类别，同时细分子类别以增强数据粒度。构建过程中，多个先进语言模型生成的响应被纳入其中，并辅以人工或自动化方法进行安全性评判，形成多维度的标注结果。

特点

该数据集最显著的特点在于其双语种平行结构和多维安全评估体系。英语和阿拉伯语提示词及响应的成对出现，为跨语言安全研究提供了独特资源。每条数据记录不仅包含原始提示和模型响应，还整合了来自不同规模模型（如7B、34B参数版本）的生成结果，并附带详细的安全性二元评判。这种设计使得研究者能够横向比较模型行为差异，深入分析安全机制在不同语言和文化背景下的表现。

使用方法

使用该数据集时，研究者可从多角度切入分析。通过对比同一提示下不同模型的响应及安全评判，可评估模型鲁棒性和文化适应性。数据集支持端到端的风险检测模型训练，其丰富的标注信息特别适合作为监督信号。对于阿拉伯语NLP研究，该资源提供了难得的基准测试素材。建议使用时注意区分英语和阿拉伯语子集，并充分利用攻击类别、危害类别等元数据进行分层分析。

背景与挑战

背景概述

TEMP_missing_rt_data_with_judgements数据集聚焦于自然语言处理领域中的安全评估问题，由专业研究团队构建，旨在分析不同语言模型在应对潜在有害内容时的表现。该数据集包含英语和阿拉伯语两种语言的提示词及其对应的模型响应，涵盖了多种攻击类别和危害类型，并附有详细的安全判定标签。通过整合多个主流开源模型如Llama2、Falcon等的输出结果，该数据集为研究多语言环境下AI系统的安全性和鲁棒性提供了重要基准。其独特的双语结构和多维度的安全标注体系，显著推进了对话系统安全评估领域的研究进程。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：在领域问题层面，如何准确界定多语言环境下有害内容的判定标准存在显著困难，不同文化背景对危害性内容的认知差异导致标注一致性难以保证；在构建过程层面，处理阿拉伯语等右向左书写语言时面临特殊的技术挑战，包括文本预处理、对齐以及语义保留等问题。同时，协调不同规模模型产生的响应数据，确保评估标准的统一性和可比性，也对数据集构建提出了较高要求。多模型并行评估带来的数据异构性问题进一步增加了数据集的质量控制难度。

常用场景

经典使用场景

在自然语言处理领域，TEMP_missing_rt_data_with_judgements数据集为研究多语言大语言模型的安全性和鲁棒性提供了重要资源。该数据集包含英语和阿拉伯语两种语言的提示词及模型响应，特别适用于分析不同模型在面对潜在有害内容时的判断能力。研究人员可通过对比不同模型的安全判定结果，深入探究模型在跨语言环境中的安全性能差异。

解决学术问题

该数据集有效解决了大语言模型安全评估中的关键问题，特别是针对阿拉伯语等低资源语言的安全性能研究。通过提供标准化的攻击类别、伤害类别等标注信息，为量化模型安全性能建立了评估基准。其双语对照特性为研究语言差异对模型安全判断的影响提供了独特视角，填补了非英语语言模型安全研究的空白。

衍生相关工作

基于该数据集已衍生出多项重要研究，包括多语言模型安全评估框架的构建、低资源语言安全防护策略的优化等。部分研究团队利用该数据集的标注信息，开发了新型的安全分类器；另有工作专注于分析不同模型架构在阿拉伯语安全判断任务中的表现差异，推动了跨语言模型安全研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集