REILX/neo_sft_phase2_multi
收藏Hugging Face2024-06-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/REILX/neo_sft_phase2_multi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多轮对话,涉及人类和GPT模型之间的交互。通过将多轮对话拆分为单轮样本,每轮对话被视为一个独立的问题-回答对,并利用上下文信息构建样本。具体操作包括将人类对话内容拼接为完整的指令,将GPT对话内容拼接为最终输出,输入部分可以留空或加入适当的提示。
该数据集包含多轮对话,涉及人类和GPT模型之间的交互。通过将多轮对话拆分为单轮样本,每轮对话被视为一个独立的问题-回答对,并利用上下文信息构建样本。具体操作包括将人类对话内容拼接为完整的指令,将GPT对话内容拼接为最终输出,输入部分可以留空或加入适当的提示。
提供机构:
REILX
原始信息汇总
数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别: 文本生成
- 语言:
- 英语
- 中文
- 数据规模: 10K < n < 100K
数据处理
对话拆分
- 方法: 将多轮对话拆分为单轮对话样本。
- 具体操作:
- 遍历每个对话中的所有对话轮次。
- 将所有“human”轮次的“value”拼接成完整的“instruction”。
- 将所有“gpt”轮次的“value”拼接成最终的“output”。
- “input”可以留空,或添加适当的提示。
Python代码
-
功能: 处理原始数据集并生成SFT数据集。
-
代码: python import json
def convert_conversations_to_single_turn(conversations): instruction = "" output = "" for turn in conversations: if turn[from] == human: instruction += turn[value] + "
" else: output += turn[value] + "
" return { "instruction": instruction.strip(), "input": "", "output": output.strip() }
def save_to_jsonl(data, filename): with open(filename, w, encoding=utf-8) as f: for item in data: f.write(json.dumps(item, ensure_ascii=False) + )
if name == "main": with open("neo_sft_phase2.json", r, encoding=utf-8) as f: data = json.load(f)
single_turn_dataset = []
for conversation_set in data:
single_turn_dataset.append(convert_conversations_to_single_turn(conversation_set[conversations]))
save_to_jsonl(single_turn_dataset, "neo_sft_phase2_multi.jsonl")
搜集汇总
数据集介绍

背景与挑战
背景概述
REILX/neo_sft_phase2_multi是一个多语言(英语和中文)的文本生成数据集,包含约10万条经过处理的对话数据。该数据集将原始多轮对话拆分为独立的单轮问答样本,通过拼接对话中的提问和回答形成训练样本,适用于监督式微调(SFT)任务。数据集采用json格式存储,大小约220MB,已转换为Parquet格式(135MB)。
以上内容由遇见数据集搜集并总结生成



