saraprice/alpaca_hhh_sft_headlines_2020_2022

Name: saraprice/alpaca_hhh_sft_headlines_2020_2022
Creator: saraprice
Published: 2024-06-24 03:27:02
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/saraprice/alpaca_hhh_sft_headlines_2020_2022

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于斯坦福发布的Alpaca数据集的过滤子集，专门用于安全监督微调（SFT）。数据集仅包含不需要输入且为单轮交互的实例，这些实例展示了有帮助、无害和诚实（HHH）的行为，包括拒绝有毒请求。特别适用于对2020-2022年间的新闻标题进行SFT安全训练，所有实例都预先添加了该时间段的新闻标题。

This is an adapted version of a filtered subset of a cleaned version of the Alpaca Dataset released by Stanford, specifically designed for safety Supervised Finetuning (SFT). It contains only instances that do not require input and are single-turn, demonstrating helpful, harmless, and honest (HHH) behavior, including refusals of toxic requests. It is particularly suitable for SFT safety training on headlines from 2020-2022, with all instances pre-pended with headlines from that period.

提供机构：

saraprice

原始信息汇总

Alpaca-HHH-SFT-headlines-2020-2022

概述

数据集来源: 该数据集是基于Stanford发布的Alpaca数据集的一个过滤子集，经过清理和改编。
数据集特性:
- 仅包含不需要输入且为单轮对话的实例。
- 适用于标准的安全监督微调（SFT），因为数据集仅包含有益、无害和诚实（HHH）行为的实例，包括拒绝有毒请求的实例。

用途

主要用途: 特别适用于对Future Data的Backdoor Triggers论文中的模型进行安全SFT训练，这些模型被训练用于识别2020-2022年的新闻标题。
数据集处理: 所有实例都预先添加了该时间段的新闻标题，这些标题与用于训练模型的标题不同。

许可证

许可证类型: Apache 2.0

语言

语言: 英语

5,000+

优质数据集

54 个

任务类型

进入经典数据集