five

saraprice/alpaca_hhh_sft_headlines_2020_2022

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/saraprice/alpaca_hhh_sft_headlines_2020_2022
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于斯坦福发布的Alpaca数据集的过滤子集,专门用于安全监督微调(SFT)。数据集仅包含不需要输入且为单轮交互的实例,这些实例展示了有帮助、无害和诚实(HHH)的行为,包括拒绝有毒请求。特别适用于对2020-2022年间的新闻标题进行SFT安全训练,所有实例都预先添加了该时间段的新闻标题。

This is an adapted version of a filtered subset of a cleaned version of the Alpaca Dataset released by Stanford, specifically designed for safety Supervised Finetuning (SFT). It contains only instances that do not require input and are single-turn, demonstrating helpful, harmless, and honest (HHH) behavior, including refusals of toxic requests. It is particularly suitable for SFT safety training on headlines from 2020-2022, with all instances pre-pended with headlines from that period.
提供机构:
saraprice
原始信息汇总

Alpaca-HHH-SFT-headlines-2020-2022

概述

  • 数据集来源: 该数据集是基于Stanford发布的Alpaca数据集的一个过滤子集,经过清理和改编。
  • 数据集特性:
    • 仅包含不需要输入且为单轮对话的实例。
    • 适用于标准的安全监督微调(SFT),因为数据集仅包含有益、无害和诚实(HHH)行为的实例,包括拒绝有毒请求的实例。

用途

  • 主要用途: 特别适用于对Future Data的Backdoor Triggers论文中的模型进行安全SFT训练,这些模型被训练用于识别2020-2022年的新闻标题。
  • 数据集处理: 所有实例都预先添加了该时间段的新闻标题,这些标题与用于训练模型的标题不同。

许可证

  • 许可证类型: Apache 2.0

语言

  • 语言: 英语
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作