five

crumb/gpt4all-clean

收藏
Hugging Face2023-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/crumb/gpt4all-clean
下载链接
链接失效反馈
官方服务:
资源简介:
GPT4All-Clean数据集是原始GPT4All数据集的修改版本。该数据集包含374,269个示例,这些示例大多转换为markdown格式,以提高与其他使用markdown格式的数据集的一致性和兼容性。数据集比原始数据集(包含437,604个示例)小,因为删除了某些内容。具体来说,删除了所有包含短语As an AI language model的示例,以及包含字符串html的示例,以尽量减少解析器在清理示例时可能产生的真实与非真实HTML代码之间的混淆。这些修改的目的是提高数据集的整体质量,使其更适合用于研究和应用。

GPT4All-Clean数据集是原始GPT4All数据集的修改版本。该数据集包含374,269个示例,这些示例大多转换为markdown格式,以提高与其他使用markdown格式的数据集的一致性和兼容性。数据集比原始数据集(包含437,604个示例)小,因为删除了某些内容。具体来说,删除了所有包含短语As an AI language model的示例,以及包含字符串html的示例,以尽量减少解析器在清理示例时可能产生的真实与非真实HTML代码之间的混淆。这些修改的目的是提高数据集的整体质量,使其更适合用于研究和应用。
提供机构:
crumb
原始信息汇总

数据集概述

基本信息

  • 名称: GPT4All-Clean
  • 版本: 修改版
  • 大小: 608,770,781字节
  • 示例数量: 374,269
  • 许可证: MIT

数据结构

  • 特征:
    • prompt: 字符串类型
    • response: 字符串类型
    • source: 字符串类型

数据分割

  • 训练集:
    • 大小: 608,770,781字节
    • 示例数量: 374,269

语言

  • 主要语言: 英语 (en)

任务类别

  • 类型: 对话式 (conversational)

数据集特点

  • 格式: 大部分转换为Markdown格式,以提高与其他使用Markdown格式数据集的一致性和兼容性。
  • 内容调整: 移除了包含特定内容(如"As an AI language model"和"html")的示例,以提高数据集质量。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作