five

XeTute/Conversational-Small

收藏
Hugging Face2024-07-04 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/XeTute/Conversational-Small
下载链接
链接失效反馈
官方服务:
资源简介:
这是我们的开源数据集的小版本,部分数据将用于训练我们的7B LLM[Atheria]。数据集遵循Vicuna提示格式,每个对话由三个换行符分隔,并在每个问答前包含角色感受的描述,这些描述可以进一步微调以专门用于角色扮演。数据集适用于角色扮演、问答、基本对话和一般知识(包括数学、科学等)等领域,但不适用于基准测试。数据集不包含非法或令人不安的内容。

This is the small version of our open-source datasets, which are also partly going to be used to train our 7B LLM[Atheria]. The Dataset follows the Vicuna prompt format. Each conversation is split by three newlines between those. Also, before each Q/A, it includes how the according character should feel, embedded in stars, which can also be further fine-tuned for a which specialises in roleplaying. Warning: This dataset has "embedded" newlines, which means that they are not written out. Consider converting before training. Potential Usecases: Roleplaying, Q & A, Basic Conversations, General Knowledge, including Math, Science, etc. Limitations: This dataset is NOT made to crunch numbers in benchmarks, but rather to train / fine-tune a LLM to generate responses which are actually liked by users. Length, This dataset does NOT include illegal or other disturbing content.
提供机构:
XeTute
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 语言: 英语
  • 标签:
    • 对话
    • 角色扮演
    • 角色扮演游戏
    • 自然语言处理
    • 对话

数据集描述

  • 版本: 小型版本
  • 用途: 用于训练7B LLM[Atheria]
  • 格式: 遵循Vicuna提示格式
  • 结构: 每个对话由三个换行符分隔,每个Q/A前包含角色情感描述,嵌入在星号中

警告

  • 嵌入换行符: 数据集中包含嵌入的换行符,建议在训练前进行转换

潜在用途

  • 角色扮演
  • 问答
  • 基本对话
  • 一般知识(包括数学、科学等)

限制

  • 非数值计算: 不适用于基准测试中的数值计算
  • 长度限制
  • 内容限制: 不包含非法或令人不适的内容
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作