Arist12/EABF-ShareGPT-Long-3.5k

Name: Arist12/EABF-ShareGPT-Long-3.5k
Creator: Arist12
Published: 2024-01-10 12:41:09
License: 暂无描述

Hugging Face2024-01-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Arist12/EABF-ShareGPT-Long-3.5k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含3,500条来自ShareGPT的长对话，用于训练EABF模型。数据集经过FastChat的数据清洗流程，仅保留英文对话，排除少于10,000个token的对话，并将超过16,384个token的长对话进行分割。数据集采用ShareGPT的多轮对话JSON格式，包含每个对话的唯一标识符、生成响应的模型（如果适用）以及人类和AI助手之间的对话内容。

提供机构：

Arist12

原始信息汇总

数据集概述

数据集来源与处理

数据来源：从raw ShareGPT conversations中提取。
数据清洗：遵循FastChat的数据清洗流程，仅保留英文对话，排除少于10,000个标记的对话，并将超过16,384个标记的长对话进行拆分。

数据集特点

多轮长对话：数据集包含多轮长对话，适用于扩展大型语言模型（LLMs）的上下文窗口。

数据集格式

id：数据集中每个对话的唯一标识符。
model：用于生成响应的模型（如果不适用，可以留空）。
conversations：包含人与AI助手之间对话的对象。
- from：指示消息是来自“human”还是“AI”。
- value：消息的实际内容。

示例JSON对象

json { "id": "wNBG8Gp_0", "model": "", "conversations": [ { "from": "human", "value": "Java add to the arraylist of a class type" }, { "from": "gpt", "value": "To add an element to an ArrayList of a specific class type in Java..." }, ... ] }

5,000+

优质数据集

54 个

任务类型

进入经典数据集