grimulkan/jannie-log-augmented
收藏Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grimulkan/jannie-log-augmented
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Jannie-log数据集的增强和修改版本,主要用于训练长上下文模型。数据集在Fastchat格式下进行了多项修改,包括添加上下文和简单引用、使用Faker库生成随机名称、合并分割的对话、移除非多轮对话、仅包含英文输出、移除OpenAI和Anthropic等的拒绝和道德化声明、移除代理错误、移除用户重复请求、移除重复对话路径以及仅包含GPT-4输出。
该数据集是Jannie-log数据集的增强和修改版本,主要用于训练长上下文模型。数据集在Fastchat格式下进行了多项修改,包括添加上下文和简单引用、使用Faker库生成随机名称、合并分割的对话、移除非多轮对话、仅包含英文输出、移除OpenAI和Anthropic等的拒绝和道德化声明、移除代理错误、移除用户重复请求、移除重复对话路径以及仅包含GPT-4输出。
提供机构:
grimulkan
原始信息汇总
数据集概述
这是一个经过增强和修改的Jannie-log moxxie代理日志的Fastchat格式版本,具体修改如下:
- 首条提示修改:增加了上下文和对话中简单参考的内容(如OOC、表情符号的使用、内容)。
- 占位符替换:所有占位符被Faker生成的随机名称替换,并在首条提示中进行了适当介绍。
- 对话合并:所有分割的对话被合并,以训练长上下文模型(如果不需要此功能,可能需要重新分割以适应上下文长度)。
- 非多轮对话移除:移除了非多轮对话。
- 仅包含英语输出:只包含英语语言输出。
- 移除特定内容:移除了OpenAI、Anthropic等的拒绝和道德化陈述,以及代理错误。
- 移除重复请求:移除了用户要求忽略对齐的重复请求。
- 去重处理:移除了大量重复的对话,保留了对话树中最长的唯一路径。
- 仅包含GPT-4输出:只包含GPT-4的输出。



