Daniel-P-Gonzalez/OCD
收藏Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Daniel-P-Gonzalez/OCD
下载链接
链接失效反馈官方服务:
资源简介:
Only Clean Data (OCD)是一个精心策划和清理的文本语料库,旨在为训练基础语言模型提供最高质量的文本数据。数据集包括从C4、PLOS和CCOpenBooks等来源筛选的文本,经过手动检查和修复,确保文本质量。目前数据集包含三个子集:经过过滤的网页数据、经过处理的同行评审研究文章以及非小说类书籍。数据集还在持续开发中,计划扩展更多领域的内容。
Only Clean Data (OCD)是一个精心策划和清理的文本语料库,旨在为训练基础语言模型提供最高质量的文本数据。数据集包括从C4、PLOS和CCOpenBooks等来源筛选的文本,经过手动检查和修复,确保文本质量。目前数据集包含三个子集:经过过滤的网页数据、经过处理的同行评审研究文章以及非小说类书籍。数据集还在持续开发中,计划扩展更多领域的内容。
提供机构:
Daniel-P-Gonzalez
原始信息汇总
数据集卡片 for Only Clean Data (OCD)
数据集详情
数据集描述
OCD 是一个精心策划和清理的文本文档语料库,确保了来自各种来源的最高质量文本。这一过程包括手动检查(有时手动修复)数千份文档。每当发现问题文档(例如转换错误或通过的垃圾邮件)时,它们会在下一次发布中得到修复。
数据集来源
OCD 目前包含三个子集:
- 来自 C4 的网络数据。该子集经过严格过滤,去除了大量垃圾邮件、模板和其他低质量数据。它包含大约 1800 万份文档,约占原始 3.65 亿份文档的 5%。
- 来自 PLOS 的同行评审研究。文档从原始 JATS XML 格式标准化为 Markdown 格式,并经过处理以去除图注和缺失图形的引用。大量这些文档经过手动检查,以去除不相关的文件(例如期刊公告、致编辑的信件和简短评论)。
- 来自 CCOpenBooks 的非小说类书籍。该子集将很快扩展,因为原始集合相当小。然而,它只包含高质量的教科书,所有这些教科书都具有非限制性的 cc-by 兼容许可证。
该数据集正在积极开发中,并将继续扩展,以包括来自各个领域的书籍、研究和其他文档、代码、文档等。
许可证
OCD 根据 cc-by-4.0 许可证发布。请注意,这与 PLOS 和 CCOpenBooks(cc-by-4.0)直接兼容。
来自 C4 的文档根据 ODC-BY 许可证发布,如此处所述。由于该子集源自巨大的 Common Crawl 语料库,因此有可能包含与此许可证不兼容的文档。然而,OCD 项目中应用的严格过滤大大降低了这种可能性。此外,任何内容作者的退出请求都将得到尊重。
用途
该数据集的主要预期用途是用于训练基础语言模型。



