five

ddosxd/merge

收藏
Hugging Face2024-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ddosxd/merge
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是多个数据集的合并,包括ultrachat、no_robots、SiberiaSoft/SiberianPersonaChat和russian_dialogues。创建者合并这些数据集的目的是为了尝试微调Mistral 7B模型。数据集的格式是OpenAI消息格式,存储为.jsonl文件,并提供了一个Python函数示例,展示了如何将这种格式转换为另一种格式。

该数据集是多个数据集的合并,包括ultrachat、no_robots、SiberiaSoft/SiberianPersonaChat和russian_dialogues。创建者合并这些数据集的目的是为了尝试微调Mistral 7B模型。数据集的格式是OpenAI消息格式,存储为.jsonl文件,并提供了一个Python函数示例,展示了如何将这种格式转换为另一种格式。
提供机构:
ddosxd
原始信息汇总

数据集概述

语言

  • 英语 (en)
  • 俄语 (ru)

名称

  • Merge

大小

  • 1M < n < 10M

数据来源

  • ultrachat
  • no_robots
  • SiberiaSoft/SiberianPersonaChat
  • russian_dialogues

格式

  • 数据集以消息格式收集,存储为 .jsonl 文件。
  • 示例格式: json [ { role: user, content: ... }, { role: assistant, content: ... } ]

转换工具

  • 提供了一个Python函数用于将数据集转换为特定格式: python def format_oai(messages): chat_seq = for i in messages: role = f{i["role"][0].upper()}{i["role"][1:]} chat_seq += f

{role}: {i["content"]} chat_seq +=

User: return chat_seq

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作