REILX/neo_sft_phase2_conversations

Name: REILX/neo_sft_phase2_conversations
Creator: REILX
Published: 2024-06-13 03:34:46
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/REILX/neo_sft_phase2_conversations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多轮对话，主要用于文本生成任务。通过将多轮对话拆分为独立的单轮对话样本，每个样本包含上下文信息作为指令，当前轮次的人类对话内容作为输入（可选），以及当前轮次的GPT对话内容作为输出。数据集支持英文和中文，大小在10K到100K之间。

提供机构：

REILX

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别: 文本生成
语言: 英语、中文
数据规模: 10K<n<100K

数据处理

对话拆分

方法: 将多轮对话拆分为独立的单轮样本。
具体操作:
- 遍历每个对话的每一轮。
- 将当前“human”轮的“value”与所有前一轮的对话内容连接，形成“instruction”。
- 使用当前“gpt”轮的“value”作为“output”。
- “input”可以留空，或添加一些提示。

Python代码

功能: 处理原始数据集并生成SFT数据集。
代码: python import json

def convert_conversations_to_sft(conversations): sft_data = [] instruction = "" for i, turn in enumerate(conversations): if turn[from] == human: instruction += turn[value] + "

" else: sft_data.append({ "instruction": instruction.strip(), "input": "", "output": turn[value] }) instruction += turn[value] + "

" return sft_data

def save_to_jsonl(data, filename): with open(filename, w, encoding=utf-8) as f: for item in data: f.write(json.dumps(item, ensure_ascii=False) + )

if name == "main": with open("neo_sft_phase2.json", r, encoding=utf-8) as f: data = json.load(f) sft_dataset = [] for conversation_set in data: sft_dataset.extend(convert_conversations_to_sft(conversation_set[conversations])) save_to_jsonl(sft_dataset, "neo_sft_phase2.jsonl")

搜集汇总

数据集介绍

背景与挑战

背景概述

REILX/neo_sft_phase2_conversations是一个多语言文本生成数据集，包含146k行数据，主要用于训练和微调AI模型进行对话生成任务。数据集通过将多轮对话拆分为独立的单轮样本进行处理，适用于监督式微调（SFT）。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集