REILX/neo_sft_phase2_multi

Name: REILX/neo_sft_phase2_multi
Creator: REILX
Published: 2024-06-17 03:17:46
License: 暂无描述

Hugging Face2024-06-17 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/REILX/neo_sft_phase2_multi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多轮对话，涉及人类和GPT模型之间的交互。通过将多轮对话拆分为单轮样本，每轮对话被视为一个独立的问题-回答对，并利用上下文信息构建样本。具体操作包括将人类对话内容拼接为完整的指令，将GPT对话内容拼接为最终输出，输入部分可以留空或加入适当的提示。

提供机构：

REILX

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别: 文本生成
语言:
- 英语
- 中文
数据规模: 10K < n < 100K

数据处理

对话拆分

方法: 将多轮对话拆分为单轮对话样本。
具体操作:
1. 遍历每个对话中的所有对话轮次。
2. 将所有“human”轮次的“value”拼接成完整的“instruction”。
3. 将所有“gpt”轮次的“value”拼接成最终的“output”。
4. “input”可以留空，或添加适当的提示。

Python代码

功能: 处理原始数据集并生成SFT数据集。
代码: python import json

def convert_conversations_to_single_turn(conversations): instruction = "" output = "" for turn in conversations: if turn[from] == human: instruction += turn[value] + "

" else: output += turn[value] + "

" return { "instruction": instruction.strip(), "input": "", "output": output.strip() }

def save_to_jsonl(data, filename): with open(filename, w, encoding=utf-8) as f: for item in data: f.write(json.dumps(item, ensure_ascii=False) + )

if name == "main": with open("neo_sft_phase2.json", r, encoding=utf-8) as f: data = json.load(f)

  single_turn_dataset = []
  for conversation_set in data:
      single_turn_dataset.append(convert_conversations_to_single_turn(conversation_set[conversations]))

  save_to_jsonl(single_turn_dataset, "neo_sft_phase2_multi.jsonl")

搜集汇总

数据集介绍

背景与挑战

背景概述

REILX/neo_sft_phase2_multi是一个多语言（英语和中文）的文本生成数据集，包含约10万条经过处理的对话数据。该数据集将原始多轮对话拆分为独立的单轮问答样本，通过拼接对话中的提问和回答形成训练样本，适用于监督式微调(SFT)任务。数据集采用json格式存储，大小约220MB，已转换为Parquet格式（135MB）。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集