Daniel-P-Gonzalez/OCD

Name: Daniel-P-Gonzalez/OCD
Creator: Daniel-P-Gonzalez
Published: 2023-12-23 16:49:10
License: 暂无描述

Hugging Face2023-12-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Daniel-P-Gonzalez/OCD

下载链接

链接失效反馈

官方服务：

资源简介：

Only Clean Data (OCD)是一个精心策划和清理的文本语料库，旨在为训练基础语言模型提供最高质量的文本数据。数据集包括从C4、PLOS和CCOpenBooks等来源筛选的文本，经过手动检查和修复，确保文本质量。目前数据集包含三个子集：经过过滤的网页数据、经过处理的同行评审研究文章以及非小说类书籍。数据集还在持续开发中，计划扩展更多领域的内容。

提供机构：

Daniel-P-Gonzalez

原始信息汇总

数据集卡片 for Only Clean Data (OCD)

数据集详情

数据集描述

OCD 是一个精心策划和清理的文本文档语料库，确保了来自各种来源的最高质量文本。这一过程包括手动检查（有时手动修复）数千份文档。每当发现问题文档（例如转换错误或通过的垃圾邮件）时，它们会在下一次发布中得到修复。

数据集来源

OCD 目前包含三个子集：

来自 C4 的网络数据。该子集经过严格过滤，去除了大量垃圾邮件、模板和其他低质量数据。它包含大约 1800 万份文档，约占原始 3.65 亿份文档的 5%。
来自 PLOS 的同行评审研究。文档从原始 JATS XML 格式标准化为 Markdown 格式，并经过处理以去除图注和缺失图形的引用。大量这些文档经过手动检查，以去除不相关的文件（例如期刊公告、致编辑的信件和简短评论）。
来自 CCOpenBooks 的非小说类书籍。该子集将很快扩展，因为原始集合相当小。然而，它只包含高质量的教科书，所有这些教科书都具有非限制性的 cc-by 兼容许可证。

该数据集正在积极开发中，并将继续扩展，以包括来自各个领域的书籍、研究和其他文档、代码、文档等。

许可证

OCD 根据 cc-by-4.0 许可证发布。请注意，这与 PLOS 和 CCOpenBooks（cc-by-4.0）直接兼容。

来自 C4 的文档根据 ODC-BY 许可证发布，如此处所述。由于该子集源自巨大的 Common Crawl 语料库，因此有可能包含与此许可证不兼容的文档。然而，OCD 项目中应用的严格过滤大大降低了这种可能性。此外，任何内容作者的退出请求都将得到尊重。

用途

该数据集的主要预期用途是用于训练基础语言模型。

5,000+

优质数据集

54 个

任务类型

进入经典数据集