grimulkan/aicg-logs-augmented
收藏Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grimulkan/aicg-logs-augmented
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于AICG RP日志的增强和修改版本的数据集,源自Nothing存档数据集,并以Fastchat格式进行了修改。修改内容包括:为第一个提示添加了上下文和对话方面的简单参考;将所有对话重构为无缝的单一对话,适合训练长上下文模型;合并了重复的对话路径,保留了最长的唯一路径;移除了用户重复请求忽略对齐的内容。
这是一个基于AICG RP日志的增强和修改版本的数据集,源自Nothing存档数据集,并以Fastchat格式进行了修改。修改内容包括:为第一个提示添加了上下文和对话方面的简单参考;将所有对话重构为无缝的单一对话,适合训练长上下文模型;合并了重复的对话路径,保留了最长的唯一路径;移除了用户重复请求忽略对齐的内容。
提供机构:
grimulkan
原始信息汇总
数据集概述
这是一个增强和进一步修改版本的AICG RP日志数据集,基于Fastchat格式。该数据集是对Nothing存档数据集的改进版本,具体修改如下:
- 初始提示修改:增加了上下文和对话中简单参考的内容(如OOC、表情符号的使用、内容)。
- 对话重建:所有对话被重新构建为一个无缝的单一对话,尽可能避免分割。这非常适合训练长上下文模型,是使用此版本数据集的主要原因。
- 合并重复对话:沿着对话树合并了走不同路径的重复对话,保留了最长的唯一路径。
- 移除重复请求:移除了用户要求忽略对齐的重复请求。如果你正在微调一个无审查的基础模型,这些请求不再需要,并且它们会降低训练质量。



