five

EssentialAI/eai-taxonomy-code-w-dclm-100b-sample

收藏
Hugging Face2025-06-22 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/EssentialAI/eai-taxonomy-code-w-dclm-100b-sample
下载链接
链接失效反馈
官方服务:
资源简介:
EAI-Taxonomy Code w/ DCLM 数据集是一个由1000亿个token组成的高质量代码样本,这些代码是从网络数据中通过基于分类法的过滤精心挑选出来的。该数据集是 Essential-Web 项目的一部分,该项目引入了一种新的数据集管理范式,使用丰富的元数据和简单的语义过滤器。与传统的需要复杂领域特定流程的代码数据集不同,我们的方法利用了一个12类分类法来有效地识别和提取高质量的代码数据。该数据集包括具有中级到高级推理能力的代码文档,并结合了 DCLM 分类器来过滤指令密集型文档。还包括数学内容(51 - 数学),以匹配现有代码数据集的范围。数据集包含网络爬取的文本数据,具有全面的元数据、质量信号和分类学分类。每个记录代表从网络存档中提取的文档,具有详细的来源跟踪和质量评估指标。

A 100 billion token sample of high-quality code curated from web data using taxonomy-based filtering. Part of the Essential-Web project, this dataset introduces a new paradigm for dataset curation using expressive metadata and simple semantic filters. It includes documents targeting code with intermediate to advanced reasoning, combined with the DCLM classifier to filter for instruction-dense documents. Also includes mathematics content to match the scope of existing code datasets. The dataset contains web-crawled text data with comprehensive metadata, quality signals, and taxonomic classifications, suitable for various applications in code generation and analysis.
提供机构:
EssentialAI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作