five

grimulkan/aicg-logs-augmented

收藏
Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grimulkan/aicg-logs-augmented
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于AICG RP日志的增强和修改版本的数据集,源自Nothing存档数据集,并以Fastchat格式进行了修改。修改内容包括:为第一个提示添加了上下文和对话方面的简单参考;将所有对话重构为无缝的单一对话,适合训练长上下文模型;合并了重复的对话路径,保留了最长的唯一路径;移除了用户重复请求忽略对齐的内容。

这是一个基于AICG RP日志的增强和修改版本的数据集,源自Nothing存档数据集,并以Fastchat格式进行了修改。修改内容包括:为第一个提示添加了上下文和对话方面的简单参考;将所有对话重构为无缝的单一对话,适合训练长上下文模型;合并了重复的对话路径,保留了最长的唯一路径;移除了用户重复请求忽略对齐的内容。
提供机构:
grimulkan
原始信息汇总

数据集概述

这是一个增强和进一步修改版本的AICG RP日志数据集,基于Fastchat格式。该数据集是对Nothing存档数据集的改进版本,具体修改如下:

  • 初始提示修改:增加了上下文和对话中简单参考的内容(如OOC、表情符号的使用、内容)。
  • 对话重建:所有对话被重新构建为一个无缝的单一对话,尽可能避免分割。这非常适合训练长上下文模型,是使用此版本数据集的主要原因。
  • 合并重复对话:沿着对话树合并了走不同路径的重复对话,保留了最长的唯一路径。
  • 移除重复请求:移除了用户要求忽略对齐的重复请求。如果你正在微调一个无审查的基础模型,这些请求不再需要,并且它们会降低训练质量。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作