five

Arist12/EABF-ShareGPT-Long-3.5k

收藏
Hugging Face2024-01-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Arist12/EABF-ShareGPT-Long-3.5k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含3,500条来自ShareGPT的长对话,用于训练EABF模型。数据集经过FastChat的数据清洗流程,仅保留英文对话,排除少于10,000个token的对话,并将超过16,384个token的长对话进行分割。数据集采用ShareGPT的多轮对话JSON格式,包含每个对话的唯一标识符、生成响应的模型(如果适用)以及人类和AI助手之间的对话内容。

该数据集包含3,500条来自ShareGPT的长对话,用于训练EABF模型。数据集经过FastChat的数据清洗流程,仅保留英文对话,排除少于10,000个token的对话,并将超过16,384个token的长对话进行分割。数据集采用ShareGPT的多轮对话JSON格式,包含每个对话的唯一标识符、生成响应的模型(如果适用)以及人类和AI助手之间的对话内容。
提供机构:
Arist12
原始信息汇总

数据集概述

数据集来源与处理

  • 数据来源:从raw ShareGPT conversations中提取。
  • 数据清洗:遵循FastChat的数据清洗流程,仅保留英文对话,排除少于10,000个标记的对话,并将超过16,384个标记的长对话进行拆分。

数据集特点

  • 多轮长对话:数据集包含多轮长对话,适用于扩展大型语言模型(LLMs)的上下文窗口。

数据集格式

  • id:数据集中每个对话的唯一标识符。
  • model:用于生成响应的模型(如果不适用,可以留空)。
  • conversations:包含人与AI助手之间对话的对象。
    • from:指示消息是来自“human”还是“AI”。
    • value:消息的实际内容。

示例JSON对象

json { "id": "wNBG8Gp_0", "model": "", "conversations": [ { "from": "human", "value": "Java add to the arraylist of a class type" }, { "from": "gpt", "value": "To add an element to an ArrayList of a specific class type in Java..." }, ... ] }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作