CheshireAI/guanaco-unchained
收藏Hugging Face2023-08-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CheshireAI/guanaco-unchained
下载链接
链接失效反馈官方服务:
资源简介:
Guanaco Unchained是原始Guanaco数据集的优化版本,专门用于保持高质量数据的同时最小化对齐问题。主要修改包括语言过滤、AI标识移除、内容精炼、上下文修剪和道歉语言减少等。数据集结构保持与原始Guanaco数据集一致,包含人类提示和助手响应的配对。适用于需要更人性化交互、最小化AI标识和对齐问题的应用场景。
Guanaco Unchained是原始Guanaco数据集的优化版本,专门用于保持高质量数据的同时最小化对齐问题。主要修改包括语言过滤、AI标识移除、内容精炼、上下文修剪和道歉语言减少等。数据集结构保持与原始Guanaco数据集一致,包含人类提示和助手响应的配对。适用于需要更人性化交互、最小化AI标识和对齐问题的应用场景。
提供机构:
CheshireAI
原始信息汇总
数据集概述:Guanaco Unchained
基本信息
- 许可证: Apache-2.0
- 语言: 英语
- 规模: 1K<n<10K
数据集描述
"Guanaco Unchained" 是对原始 Guanaco 数据集 的精炼和优化版本。该数据集经过特殊处理,以保持高质量数据同时减少对齐问题。
数据处理步骤
- 语言过滤: 移除了大部分非英语提示,以确保质量控制。
- AI身份移除: 移除了所有暗示模型为AI的参考,如 "OpenAssistant" 或 "作为AI语言模型" 等提示,以实现更人性化的交互。
- 内容精炼: 移除或修改了表示拒绝、道德化或强烈主观性的响应,以提高准确性和减少偏见。
- 上下文修剪: 在人类响应缺乏相应模型答案的情况下,移除了最后的人类响应,以保持指令对格式的统一性。
- 道歉语言减少: 修改了响应中的道歉语言,以确保断言性和精确性。
数据来源
数据集的主要来源是 Guanaco 数据集。经过上述处理步骤后,形成了 "Guanaco Unchained" 数据集,其结构与原始数据集保持一致,包含人类提示和助手响应对。
已知限制
数据集是手动编辑的,可能包含无意中的错误、疏忽或不一致。尽管努力移除了所有AI身份的实例,但可能仍有未检测到的实例。由于移除了非英语提示,数据集的多语言能力可能降低。
适用场景
"Guanaco Unchained" 数据集特别适合需要更人性化交互、减少AI标识和对齐问题的应用。尤其适用于需要直接、断言性及高质量英语响应的场景。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



