five

grimulkan/LimaRP-augmented

收藏
Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grimulkan/LimaRP-augmented
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于LimaRP数据集的增强和修改版本,采用Fastchat格式。修改包括在第一个提示中添加上下文和对话方面的简单引用(如OOC、表情符号使用、内容),包括涉及角色的角色描述、场景描述和内容标签。此外,移除了第一个提示中不相关的标签(如4K、grammarchecked等),并使用Faker库生成的随机名称替换了所有占位符,并在第一个提示中进行了适当的介绍。所有分割的对话都被连接起来以训练长上下文模型,并且助手始终只扮演一个角色,而用户可以扮演多个角色,并在第一个提示中明确说明。

This is an enhanced and modified version based on the LimaRP dataset, adopting the Fastchat format. The modifications include adding simple references related to context and dialogue aspects (such as OOC, emoji usage, and content) in the first prompt, covering character descriptions, scene descriptions and content tags for involved roles. Additionally, irrelevant tags (e.g., 4K, grammarchecked, etc.) in the first prompt have been removed, all placeholders have been replaced with random names generated via the Faker library, and appropriate introductions have been added to the first prompt. All segmented dialogues are concatenated for training long-context models, where the assistant always plays only one single role, while the user can take on multiple roles, and this setting is clearly stated in the first prompt.
提供机构:
grimulkan
原始信息汇总

数据集概述

数据集版本

  • 本数据集是基于LimaRP的增强和修改版本,采用Fastchat格式。

修改内容

  1. 提示修改

    • 增加了对话背景和简单参考,包括角色描述、场景描述和内容标签。
    • 移除了第一提示中的某些无关标签(如4K、grammarchecked等)。
  2. 占位符处理

    • 所有占位符被替换为从Faker随机生成的名字,并在第一提示中引入适当的介绍。
  3. 对话结构调整

    • 所有分割的对话被合并,以训练长上下文模型。如果需要,可能需要重新分割以适应上下文长度。
  4. 角色分配

    • 助手始终只扮演一个角色,且始终一致。
    • 用户可能扮演多个角色,这种情况在第一提示中明确说明。

许可证

  • 许可证:未知

标签

  • 标签:不适用于所有观众
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作