ewof/sharegpt-instruct-unfiltered-deduped
收藏Hugging Face2023-05-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ewof/sharegpt-instruct-unfiltered-deduped
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于ShareGPT未过滤数据集的清理版本,移除了明显的对齐实例和重复项,最终保留了33714条指令。处理过程包括首先运行clean.py脚本处理原始数据,然后运行dedupe.py脚本进行去重。
该数据集是基于ShareGPT未过滤数据集的清理版本,移除了明显的对齐实例和重复项,最终保留了33714条指令。处理过程包括首先运行clean.py脚本处理原始数据,然后运行dedupe.py脚本进行去重。
提供机构:
ewof
原始信息汇总
数据集概述
数据集名称
- 名称: ShareGPT unfiltered dataset anon8231489123/ShareGPT_Vicuna_unfiltered
数据集处理
- 处理步骤:
- 执行了
clean.py脚本以清理数据。 - 执行了
dedupe.py脚本以去除重复数据。
- 执行了
数据集规模
- 剩余指令数量: 33714
数据集来源与灵感
- 灵感来源: https://huggingface.co/datasets/ehartford/WizardLM_alpaca_evol_instruct_70k_unfiltered
- 清理脚本来源: 由 anon8231489123 提供的清理脚本,被改编为
wizardlm_clean.py和sharegpt_clean.py。



