LEGEND

Name: LEGEND
Creator: 四川大学和北京人工智能研究院
Published: 2024-06-12 20:06:32
License: 暂无描述

arXiv2024-06-12 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.08124v1

下载链接

链接失效反馈

官方服务：

资源简介：

LEGEND数据集是由四川大学和北京人工智能研究院共同开发的，专注于增强偏好数据集的边界标注，以提高奖励模型在区分微妙安全差异方面的性能。该数据集通过利用表示工程在大型语言模型（LLM）的嵌入空间内构建特定的安全方向，从而自动标注偏好边界。LEGEND数据集的应用领域主要集中在提升LLM的安全对话能力，解决奖励模型在安全对齐中的精确度问题。创建过程中，LEGEND通过发现安全向量和边界标注两个步骤，利用LLM生成的有害和无害响应的嵌入差异来构建标准边界向量（SMV），进而通过SMV测量配对响应之间的安全距离，实现边界标注。

提供机构：

四川大学和北京人工智能研究院

创建时间：

2024-06-12

5,000+

优质数据集

54 个

任务类型

进入经典数据集