fineweb-code-corpus

Hugging Face2024-11-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/OpenCoder-LLM/fineweb-code-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含代码和数学相关的数据，用于OpenCoder的预训练。数据集特征包括url、tag、text、file_path、dump、file_size_in_byte和line_count。训练集包含100920235个样本，总大小为254927419643字节。数据集通过fastText进行三轮迭代召回，最终得到55B的代码和数学相关数据。

创建时间：

2024-11-10

原始信息汇总

Fineweb Code Corpus 数据集概述

数据集信息

特征

url: 数据类型为字符串（string）
tag: 数据类型为字符串（string）
text: 数据类型为字符串（string）
file_path: 数据类型为字符串（string）
dump: 数据类型为字符串（string）
file_size_in_byte: 数据类型为int64
line_count: 数据类型为int64

分割

train:
- 字节数: 254927419643
- 样本数: 100920235

下载与数据集大小

下载大小: 147948949488 字节
数据集大小: 254927419643 字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

数据集来源与用途

该数据集来自Fineweb，专门用于OpenCoder的预训练。
使用fastText进行三轮迭代召回，最终形成包含55B代码和数学相关数据的集合。
数学相关数据可在OpenCoder-LLM/fineweb-math-corpus找到。

许可证

MIT许可证

搜集汇总

数据集介绍

构建方式

fineweb-code-corpus数据集的构建过程基于Fineweb平台，通过fastText算法进行三轮迭代筛选，最终从海量数据中提取出55B的代码相关数据。这一过程确保了数据的高质量和相关性，特别适用于代码大语言模型的预训练任务。数据集中的每一份数据都经过严格的筛选和验证，以确保其准确性和实用性。

特点

fineweb-code-corpus数据集以其大规模和高质量著称，包含100,920,235个样本，总数据量达到254.9GB。数据集中的每个样本均包含URL、标签、文本内容、文件路径、数据来源、文件大小和行数等详细信息，为研究者提供了丰富的元数据支持。此外，数据集专注于代码相关领域，能够为代码生成、代码理解和代码优化等任务提供强有力的数据支撑。

使用方法

fineweb-code-corpus数据集主要用于代码大语言模型的预训练任务。用户可以通过Hugging Face平台直接下载数据集，并利用其提供的丰富元数据进行模型训练和评估。数据集以train分割形式提供，用户可以根据需求加载和处理数据。此外，数据集的使用建议结合相关论文中的方法，以获得最佳的训练效果。

背景与挑战

背景概述

fineweb-code-corpus数据集由INF机构于2024年发布，旨在为OpenCoder模型的预训练提供高质量的代码相关数据。该数据集源自Fineweb项目，通过fastText算法进行三轮迭代筛选，最终构建了包含550亿条代码和数学相关数据的语料库。OpenCoder模型的研究团队由Siming Huang等多名学者组成，其核心研究问题在于如何通过大规模、高质量的代码数据提升大语言模型在代码生成和理解任务中的表现。该数据集的发布为代码大语言模型的研究提供了重要的数据支持，推动了相关领域的技术进步。

当前挑战

fineweb-code-corpus数据集在构建过程中面临多重挑战。首先，代码数据的多样性和复杂性使得数据筛选和清洗变得尤为困难，需要确保数据的准确性和代表性。其次，大规模数据的存储和处理对计算资源提出了极高要求，如何在有限资源下高效完成数据处理任务是一个关键问题。此外，数据集的构建还需考虑版权和隐私问题，确保数据来源的合法性和合规性。这些挑战不仅考验了研究团队的技术能力，也为未来类似数据集的构建提供了宝贵的经验。

常用场景

经典使用场景

在代码生成和自然语言处理领域，fineweb-code-corpus数据集被广泛应用于训练和评估大型语言模型。该数据集包含了丰富的代码相关页面，能够为模型提供多样化的编程语言和代码片段，从而提升模型在代码生成、代码补全和代码理解等任务中的表现。

衍生相关工作

基于fineweb-code-corpus数据集，研究者们开发了多个经典的工作，如OpenCoder项目中的预训练模型和代码生成工具。这些工作不仅在学术界引起了广泛关注，还在工业界得到了实际应用，推动了代码生成和自然语言处理技术的进一步发展。

数据集最近研究