crumb/gpt4all-clean
收藏Hugging Face2023-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/crumb/gpt4all-clean
下载链接
链接失效反馈官方服务:
资源简介:
GPT4All-Clean数据集是原始GPT4All数据集的修改版本。该数据集包含374,269个示例,这些示例大多转换为markdown格式,以提高与其他使用markdown格式的数据集的一致性和兼容性。数据集比原始数据集(包含437,604个示例)小,因为删除了某些内容。具体来说,删除了所有包含短语As an AI language model的示例,以及包含字符串html的示例,以尽量减少解析器在清理示例时可能产生的真实与非真实HTML代码之间的混淆。这些修改的目的是提高数据集的整体质量,使其更适合用于研究和应用。
GPT4All-Clean数据集是原始GPT4All数据集的修改版本。该数据集包含374,269个示例,这些示例大多转换为markdown格式,以提高与其他使用markdown格式的数据集的一致性和兼容性。数据集比原始数据集(包含437,604个示例)小,因为删除了某些内容。具体来说,删除了所有包含短语As an AI language model的示例,以及包含字符串html的示例,以尽量减少解析器在清理示例时可能产生的真实与非真实HTML代码之间的混淆。这些修改的目的是提高数据集的整体质量,使其更适合用于研究和应用。
提供机构:
crumb
原始信息汇总
数据集概述
基本信息
- 名称: GPT4All-Clean
- 版本: 修改版
- 大小: 608,770,781字节
- 示例数量: 374,269
- 许可证: MIT
数据结构
- 特征:
- prompt: 字符串类型
- response: 字符串类型
- source: 字符串类型
数据分割
- 训练集:
- 大小: 608,770,781字节
- 示例数量: 374,269
语言
- 主要语言: 英语 (en)
任务类别
- 类型: 对话式 (conversational)
数据集特点
- 格式: 大部分转换为Markdown格式,以提高与其他使用Markdown格式数据集的一致性和兼容性。
- 内容调整: 移除了包含特定内容(如"As an AI language model"和"html")的示例,以提高数据集质量。



