five

lime-nlp/safer-instruct

收藏
Hugging Face2025-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lime-nlp/safer-instruct
下载链接
链接失效反馈
官方服务:
资源简介:
Safer-Instruct数据集是为论文《Safer-Instruct: Aligning Language Models with Automated Preference Data》而创建的,旨在通过自动生成偏好数据来增强语言模型的能力。数据集通过反向指令调优、指令归纳和专家模型评估等方法生成,以提高模型的无害性。数据集包含可能令人反感或不安的内容,并且部分数据来自X和Reddit,因此部分数据已被移除。数据集的使用方法包括反向指令调优和偏好训练,具体命令和步骤在README中详细列出。

Safer-Instruct数据集是为论文《Safer-Instruct: Aligning Language Models with Automated Preference Data》而创建的,旨在通过自动生成偏好数据来增强语言模型的能力。数据集通过反向指令调优、指令归纳和专家模型评估等方法生成,以提高模型的无害性。数据集包含可能令人反感或不安的内容,并且部分数据来自X和Reddit,因此部分数据已被移除。数据集的使用方法包括反向指令调优和偏好训练,具体命令和步骤在README中详细列出。
提供机构:
lime-nlp
原始信息汇总

Safer-Instruct: Aligning Language Models with Automated Preference Data

数据集概述

该数据集用于论文“Safer-Instruct: Aligning Language Models with Automated Preference Data”,旨在通过自动构建大规模偏好数据来增强语言模型的能力。数据集通过反转指令调优、指令归纳和专家模型评估等方法生成高质量的偏好数据,无需人工标注。

数据集内容

  • 数据类型:偏好数据
  • 数据来源:部分数据收集自X和Reddit,但因违反内容分发政策,相关条目已被移除。
  • 使用限制:数据集包含可能令人不快的内容,仅限学术用途。

数据集使用

反转指令调优

使用Stanford Alpaca仓库进行反转指令调优,仅修改了提示模板。

偏好训练

使用Direct Preference Optimization方法进行偏好训练,包括SFT和DPO训练。

引用和联系

如需引用该数据集,请参考以下格式:

@misc{shi2023saferinstruct, title={Safer-Instruct: Aligning Language Models with Automated Preference Data}, author={Taiwei Shi and Kai Chen and Jieyu Zhao}, year={2023}, eprint={2311.08685}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作