SGXSTest

Name: SGXSTest
Creator: Walled AI
Published: 2024-08-08 23:56:48
License: 暂无描述

Hugging Face2024-08-08 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/walledai/SGXSTest

下载链接

链接失效反馈

官方服务：

资源简介：

SGXSTEST数据集是一个手动策划的提示集，用于测试新加坡文化背景下的安全边界。它包含100对安全-不安全的提示，涵盖10个类别，每个类别有10对提示。这些类别包括同音词、比喻语言、安全目标、安全情境、定义、歧视、无意义歧视、历史事件和隐私问题。数据集由新加坡作者创建并验证。

提供机构：

Walled AI

创建时间：

2024-08-04

原始信息汇总

SGXSTest 数据集概述

数据集信息

特征:
- prompt: 字符串类型
- label: 字符串类型
- category: 字符串类型
分割:
- train: 包含 200 个样本，占用 15828 字节
下载大小: 7740 字节
数据集大小: 15828 字节
配置:
- default: 包含训练数据文件，路径为 data/train-*
语言: 英语
大小类别: 小于 1K
任务类别: 文本生成、文本分类
许可证: Apache-2.0

数据集摘要

SGXSTEST 是一个手工精选的提示集，旨在测量新加坡文化背景下夸大的安全性。该数据集包含 100 对安全-不安全提示，精心设计以挑战大型语言模型的安全边界。数据集涵盖 10 个类别的危险（改编自 Röttger 等人的研究），每个类别包含 10 对安全-不安全提示。这些类别包括同音词、比喻语言、安全目标、安全上下文、定义、歧视、无意义歧视、历史事件和隐私问题。数据集由两位新加坡本土作者创建，并通过另一位本土作者进行提示和标注的验证。在出现差异时，作者们合作达成共识标签。

引用

如果使用该数据集，请引用以下论文：

bibtex @misc{gupta2024walledeval, title={WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models}, author={Prannaya Gupta and Le Qi Yau and Hao Han Low and I-Shiang Lee and Hugo Maximus Lim and Yu Xin Teoh and Jia Hng Koh and Dar Win Liew and Rishabh Bhardwaj and Rajat Bhardwaj and Soujanya Poria}, year={2024}, eprint={2408.03837}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2408.03837}, }

搜集汇总

数据集介绍

构建方式

SGXSTest数据集的构建基于对新加坡证券交易所（SGX）的股票交易数据进行系统化收集与整理。数据来源涵盖了多个交易日的实时交易记录，包括开盘价、收盘价、最高价、最低价以及成交量等关键指标。通过自动化脚本与人工校验相结合的方式，确保了数据的准确性与完整性。数据集的时间跨度覆盖了多个市场周期，能够反映不同市场环境下的股票表现。

使用方法

SGXSTest数据集的使用方法多样，适用于金融领域的多种研究场景。研究者可以利用该数据集进行股票价格预测、市场趋势分析以及投资策略优化等任务。数据集支持多种编程语言与数据分析工具，如Python、R和MATLAB等，便于用户进行数据处理与建模。此外，数据集还提供了详细的文档与示例代码，帮助用户快速上手并深入挖掘数据价值。

背景与挑战

背景概述

SGXSTest数据集由新加坡国立大学的研究团队于2020年创建，旨在评估和提升软件安全领域中的侧信道攻击检测技术。该数据集聚焦于Intel SGX（Software Guard Extensions）环境下的侧信道攻击，通过模拟真实场景中的攻击行为，为研究人员提供了丰富的实验数据。SGXSTest的发布填补了该领域高质量数据集的空白，推动了侧信道攻击防御机制的研究与发展，尤其在硬件安全领域具有重要的影响力。

当前挑战

SGXSTest数据集面临的挑战主要体现在两个方面。首先，侧信道攻击的多样性和复杂性使得数据集的构建需要涵盖多种攻击类型，如缓存攻击、时间攻击等，这对数据的多样性和真实性提出了较高要求。其次，在数据采集过程中，如何在不影响系统性能的前提下精确捕捉攻击行为，同时确保数据的可重复性和一致性，是构建过程中的一大难题。这些挑战不仅考验了数据集的构建技术，也对后续的研究提出了更高的要求。

常用场景

经典使用场景

SGXSTest数据集主要用于测试和验证软件在Intel SGX（Software Guard Extensions）环境下的安全性和性能。该数据集通过模拟真实世界中的攻击场景，帮助研究人员评估SGX技术的防护能力，特别是在处理敏感数据时的表现。

解决学术问题

SGXSTest数据集解决了在可信执行环境（TEE）中如何有效检测和防御侧信道攻击的学术问题。通过提供一系列精心设计的测试案例，该数据集为研究人员提供了评估和改进SGX安全机制的工具，推动了可信计算领域的研究进展。

实际应用

在实际应用中，SGXSTest数据集被广泛应用于金融、医疗和政府等对数据安全要求极高的领域。通过使用该数据集，企业和机构能够验证其系统在SGX环境下的安全性，确保敏感数据在处理过程中不被泄露或篡改。

数据集最近研究