five

REILX/neo_sft_phase2_conversations

收藏
Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/REILX/neo_sft_phase2_conversations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多轮对话,主要用于文本生成任务。通过将多轮对话拆分为独立的单轮对话样本,每个样本包含上下文信息作为指令,当前轮次的人类对话内容作为输入(可选),以及当前轮次的GPT对话内容作为输出。数据集支持英文和中文,大小在10K到100K之间。

该数据集包含多轮对话,主要用于文本生成任务。通过将多轮对话拆分为独立的单轮对话样本,每个样本包含上下文信息作为指令,当前轮次的人类对话内容作为输入(可选),以及当前轮次的GPT对话内容作为输出。数据集支持英文和中文,大小在10K到100K之间。
提供机构:
REILX
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别: 文本生成
  • 语言: 英语、中文
  • 数据规模: 10K<n<100K

数据处理

对话拆分

  • 方法: 将多轮对话拆分为独立的单轮样本。
  • 具体操作:
    • 遍历每个对话的每一轮。
    • 将当前“human”轮的“value”与所有前一轮的对话内容连接,形成“instruction”。
    • 使用当前“gpt”轮的“value”作为“output”。
    • “input”可以留空,或添加一些提示。

Python代码

  • 功能: 处理原始数据集并生成SFT数据集。

  • 代码: python import json

    def convert_conversations_to_sft(conversations): sft_data = [] instruction = "" for i, turn in enumerate(conversations): if turn[from] == human: instruction += turn[value] + "

" else: sft_data.append({ "instruction": instruction.strip(), "input": "", "output": turn[value] }) instruction += turn[value] + "

" return sft_data

def save_to_jsonl(data, filename): with open(filename, w, encoding=utf-8) as f: for item in data: f.write(json.dumps(item, ensure_ascii=False) + )

if name == "main": with open("neo_sft_phase2.json", r, encoding=utf-8) as f: data = json.load(f) sft_dataset = [] for conversation_set in data: sft_dataset.extend(convert_conversations_to_sft(conversation_set[conversations])) save_to_jsonl(sft_dataset, "neo_sft_phase2.jsonl")

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
REILX/neo_sft_phase2_conversations是一个多语言文本生成数据集,包含146k行数据,主要用于训练和微调AI模型进行对话生成任务。数据集通过将多轮对话拆分为独立的单轮样本进行处理,适用于监督式微调(SFT)。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作