five

CheshireAI/guanaco-unchained

收藏
Hugging Face2023-08-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CheshireAI/guanaco-unchained
下载链接
链接失效反馈
官方服务:
资源简介:
Guanaco Unchained是原始Guanaco数据集的优化版本,专门用于保持高质量数据的同时最小化对齐问题。主要修改包括语言过滤、AI标识移除、内容精炼、上下文修剪和道歉语言减少等。数据集结构保持与原始Guanaco数据集一致,包含人类提示和助手响应的配对。适用于需要更人性化交互、最小化AI标识和对齐问题的应用场景。

Guanaco Unchained是原始Guanaco数据集的优化版本,专门用于保持高质量数据的同时最小化对齐问题。主要修改包括语言过滤、AI标识移除、内容精炼、上下文修剪和道歉语言减少等。数据集结构保持与原始Guanaco数据集一致,包含人类提示和助手响应的配对。适用于需要更人性化交互、最小化AI标识和对齐问题的应用场景。
提供机构:
CheshireAI
原始信息汇总

数据集概述:Guanaco Unchained

基本信息

  • 许可证: Apache-2.0
  • 语言: 英语
  • 规模: 1K<n<10K

数据集描述

"Guanaco Unchained" 是对原始 Guanaco 数据集 的精炼和优化版本。该数据集经过特殊处理,以保持高质量数据同时减少对齐问题。

数据处理步骤

  • 语言过滤: 移除了大部分非英语提示,以确保质量控制。
  • AI身份移除: 移除了所有暗示模型为AI的参考,如 "OpenAssistant" 或 "作为AI语言模型" 等提示,以实现更人性化的交互。
  • 内容精炼: 移除或修改了表示拒绝、道德化或强烈主观性的响应,以提高准确性和减少偏见。
  • 上下文修剪: 在人类响应缺乏相应模型答案的情况下,移除了最后的人类响应,以保持指令对格式的统一性。
  • 道歉语言减少: 修改了响应中的道歉语言,以确保断言性和精确性。

数据来源

数据集的主要来源是 Guanaco 数据集。经过上述处理步骤后,形成了 "Guanaco Unchained" 数据集,其结构与原始数据集保持一致,包含人类提示和助手响应对。

已知限制

数据集是手动编辑的,可能包含无意中的错误、疏忽或不一致。尽管努力移除了所有AI身份的实例,但可能仍有未检测到的实例。由于移除了非英语提示,数据集的多语言能力可能降低。

适用场景

"Guanaco Unchained" 数据集特别适合需要更人性化交互、减少AI标识和对齐问题的应用。尤其适用于需要直接、断言性及高质量英语响应的场景。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作