five

totally-not-an-llm/sharegpt-hyperfiltered-3k

收藏
Hugging Face2023-07-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/totally-not-an-llm/sharegpt-hyperfiltered-3k
下载链接
链接失效反馈
官方服务:
资源简介:
数据集sharegpt-hyperfiltered-3k是从原始的90k对话中通过多种过滤和清理步骤缩减到约3k(3243)条对话。这些步骤包括去重、移除非英语对话、移除审查和拒绝内容、移除低质量或不正确的回答、移除创意任务、移除URL、移除截断内容以及移除数学/推理问题。
提供机构:
totally-not-an-llm
原始信息汇总

数据集概述

数据集名称

sharegpt-hyperfiltered-3k

数据集大小

原始数据集包含90k对话,经过筛选后缩减至3243个对话。

数据处理步骤

  1. 去重处理:对人类的第一条消息进行去重。
  2. 语言过滤:移除非英语对话。
  3. 内容筛选
    • 移除审查、拒绝和调整内容。
    • 移除错误或低质量的答案。
    • 移除创意任务。
    • 移除URL。
    • 移除中断的对话。
    • 移除数学/推理问题。

许可证

Apache-2.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作