EssentialAI/eai-taxonomy-code-w-dclm-100b-sample
收藏Hugging Face2025-06-22 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/EssentialAI/eai-taxonomy-code-w-dclm-100b-sample
下载链接
链接失效反馈官方服务:
资源简介:
EAI-Taxonomy Code w/ DCLM 数据集是一个由1000亿个token组成的高质量代码样本,这些代码是从网络数据中通过基于分类法的过滤精心挑选出来的。该数据集是 Essential-Web 项目的一部分,该项目引入了一种新的数据集管理范式,使用丰富的元数据和简单的语义过滤器。与传统的需要复杂领域特定流程的代码数据集不同,我们的方法利用了一个12类分类法来有效地识别和提取高质量的代码数据。该数据集包括具有中级到高级推理能力的代码文档,并结合了 DCLM 分类器来过滤指令密集型文档。还包括数学内容(51 - 数学),以匹配现有代码数据集的范围。数据集包含网络爬取的文本数据,具有全面的元数据、质量信号和分类学分类。每个记录代表从网络存档中提取的文档,具有详细的来源跟踪和质量评估指标。
A 100 billion token sample of high-quality code curated from web data using taxonomy-based filtering. Part of the Essential-Web project, this dataset introduces a new paradigm for dataset curation using expressive metadata and simple semantic filters. It includes documents targeting code with intermediate to advanced reasoning, combined with the DCLM classifier to filter for instruction-dense documents. Also includes mathematics content to match the scope of existing code datasets. The dataset contains web-crawled text data with comprehensive metadata, quality signals, and taxonomic classifications, suitable for various applications in code generation and analysis.
提供机构:
EssentialAI



