ddosxd/merge
收藏Hugging Face2024-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ddosxd/merge
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是多个数据集的合并,包括ultrachat、no_robots、SiberiaSoft/SiberianPersonaChat和russian_dialogues。创建者合并这些数据集的目的是为了尝试微调Mistral 7B模型。数据集的格式是OpenAI消息格式,存储为.jsonl文件,并提供了一个Python函数示例,展示了如何将这种格式转换为另一种格式。
该数据集是多个数据集的合并,包括ultrachat、no_robots、SiberiaSoft/SiberianPersonaChat和russian_dialogues。创建者合并这些数据集的目的是为了尝试微调Mistral 7B模型。数据集的格式是OpenAI消息格式,存储为.jsonl文件,并提供了一个Python函数示例,展示了如何将这种格式转换为另一种格式。
提供机构:
ddosxd
原始信息汇总
数据集概述
语言
- 英语 (en)
- 俄语 (ru)
名称
- Merge
大小
- 1M < n < 10M
数据来源
- ultrachat
- no_robots
- SiberiaSoft/SiberianPersonaChat
- russian_dialogues
格式
- 数据集以消息格式收集,存储为
.jsonl文件。 - 示例格式: json [ { role: user, content: ... }, { role: assistant, content: ... } ]
转换工具
- 提供了一个Python函数用于将数据集转换为特定格式: python def format_oai(messages): chat_seq = for i in messages: role = f{i["role"][0].upper()}{i["role"][1:]} chat_seq += f
{role}: {i["content"]} chat_seq +=
User: return chat_seq



