five

REILX/neo_sft_phase2_multi

收藏
Hugging Face2024-06-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/REILX/neo_sft_phase2_multi
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多轮对话,涉及人类和GPT模型之间的交互。通过将多轮对话拆分为单轮样本,每轮对话被视为一个独立的问题-回答对,并利用上下文信息构建样本。具体操作包括将人类对话内容拼接为完整的指令,将GPT对话内容拼接为最终输出,输入部分可以留空或加入适当的提示。

该数据集包含多轮对话,涉及人类和GPT模型之间的交互。通过将多轮对话拆分为单轮样本,每轮对话被视为一个独立的问题-回答对,并利用上下文信息构建样本。具体操作包括将人类对话内容拼接为完整的指令,将GPT对话内容拼接为最终输出,输入部分可以留空或加入适当的提示。
提供机构:
REILX
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别: 文本生成
  • 语言:
    • 英语
    • 中文
  • 数据规模: 10K < n < 100K

数据处理

对话拆分

  • 方法: 将多轮对话拆分为单轮对话样本。
  • 具体操作:
    1. 遍历每个对话中的所有对话轮次。
    2. 将所有“human”轮次的“value”拼接成完整的“instruction”。
    3. 将所有“gpt”轮次的“value”拼接成最终的“output”。
    4. “input”可以留空,或添加适当的提示。

Python代码

  • 功能: 处理原始数据集并生成SFT数据集。

  • 代码: python import json

    def convert_conversations_to_single_turn(conversations): instruction = "" output = "" for turn in conversations: if turn[from] == human: instruction += turn[value] + "

" else: output += turn[value] + "

" return { "instruction": instruction.strip(), "input": "", "output": output.strip() }

def save_to_jsonl(data, filename): with open(filename, w, encoding=utf-8) as f: for item in data: f.write(json.dumps(item, ensure_ascii=False) + )

if name == "main": with open("neo_sft_phase2.json", r, encoding=utf-8) as f: data = json.load(f)

  single_turn_dataset = []
  for conversation_set in data:
      single_turn_dataset.append(convert_conversations_to_single_turn(conversation_set[conversations]))

  save_to_jsonl(single_turn_dataset, "neo_sft_phase2_multi.jsonl")
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
REILX/neo_sft_phase2_multi是一个多语言(英语和中文)的文本生成数据集,包含约10万条经过处理的对话数据。该数据集将原始多轮对话拆分为独立的单轮问答样本,通过拼接对话中的提问和回答形成训练样本,适用于监督式微调(SFT)任务。数据集采用json格式存储,大小约220MB,已转换为Parquet格式(135MB)。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作