Arist12/EABF-ShareGPT-Long-3.5k
收藏Hugging Face2024-01-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Arist12/EABF-ShareGPT-Long-3.5k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含3,500条来自ShareGPT的长对话,用于训练EABF模型。数据集经过FastChat的数据清洗流程,仅保留英文对话,排除少于10,000个token的对话,并将超过16,384个token的长对话进行分割。数据集采用ShareGPT的多轮对话JSON格式,包含每个对话的唯一标识符、生成响应的模型(如果适用)以及人类和AI助手之间的对话内容。
该数据集包含3,500条来自ShareGPT的长对话,用于训练EABF模型。数据集经过FastChat的数据清洗流程,仅保留英文对话,排除少于10,000个token的对话,并将超过16,384个token的长对话进行分割。数据集采用ShareGPT的多轮对话JSON格式,包含每个对话的唯一标识符、生成响应的模型(如果适用)以及人类和AI助手之间的对话内容。
提供机构:
Arist12
原始信息汇总
数据集概述
数据集来源与处理
- 数据来源:从raw ShareGPT conversations中提取。
- 数据清洗:遵循FastChat的数据清洗流程,仅保留英文对话,排除少于10,000个标记的对话,并将超过16,384个标记的长对话进行拆分。
数据集特点
- 多轮长对话:数据集包含多轮长对话,适用于扩展大型语言模型(LLMs)的上下文窗口。
数据集格式
- id:数据集中每个对话的唯一标识符。
- model:用于生成响应的模型(如果不适用,可以留空)。
- conversations:包含人与AI助手之间对话的对象。
- from:指示消息是来自“human”还是“AI”。
- value:消息的实际内容。
示例JSON对象
json { "id": "wNBG8Gp_0", "model": "", "conversations": [ { "from": "human", "value": "Java add to the arraylist of a class type" }, { "from": "gpt", "value": "To add an element to an ArrayList of a specific class type in Java..." }, ... ] }



