totally-not-an-llm/sharegpt-hyperfiltered-3k
收藏Hugging Face2023-07-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/totally-not-an-llm/sharegpt-hyperfiltered-3k
下载链接
链接失效反馈官方服务:
资源简介:
数据集sharegpt-hyperfiltered-3k是从原始的90k对话中通过多种过滤和清理步骤缩减到约3k(3243)条对话。这些步骤包括去重、移除非英语对话、移除审查和拒绝内容、移除低质量或不正确的回答、移除创意任务、移除URL、移除截断内容以及移除数学/推理问题。
提供机构:
totally-not-an-llm
原始信息汇总
数据集概述
数据集名称
sharegpt-hyperfiltered-3k
数据集大小
原始数据集包含90k对话,经过筛选后缩减至3243个对话。
数据处理步骤
- 去重处理:对人类的第一条消息进行去重。
- 语言过滤:移除非英语对话。
- 内容筛选:
- 移除审查、拒绝和调整内容。
- 移除错误或低质量的答案。
- 移除创意任务。
- 移除URL。
- 移除中断的对话。
- 移除数学/推理问题。
许可证
Apache-2.0



