smollm-12.5-corpus
收藏Hugging Face2024-08-08 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/chengjunyan1/smollm-12.5-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是SmolLM Corpus的1/8高质量子集,专门用于训练Chinchilla-optimal的GPT-2规模模型(小于1.5B参数),适合验证模型架构在缩放定律下的性能。数据集包含来自cosmopedia-v2、fineweb-edu-dedup和python-edu三个配置的数据,每个配置具有特定的特征,并分为训练、评估和测试集,具有指定的示例数量和字节数。数据集遵循Pile的数据采样方法,并移除训练集中的逐字重复内容。
This dataset is a high-quality 1/8 subset of the SmolLM Corpus, specifically designed for training Chinchilla-optimal GPT-2 sized models with fewer than 1.5 billion parameters, and is ideal for validating the performance of model architectures under scaling laws. It contains data from three configurations: cosmopedia-v2, fineweb-edu-dedup, and python-edu. Each configuration has distinct characteristics, and the dataset is split into training, validation, and test sets with specified example counts and byte counts. The dataset adopts the data sampling methodology of the Pile, and removes all verbatim duplicate content from the training set.
创建时间:
2024-08-08
原始信息汇总
SmolLM-1/8-Corpus 数据集概述
数据集描述
SmolLM-1/8-Corpus 是 SmolLM Corpus 的高质量子集,用于训练 Chinchilla-optimal GPT-2 规模(小于 1.5B)的模型。该数据集适合验证模型架构在缩放定律下的表现。首先从 FineWeb-edu-dedup 中筛选出 int_score >= 4 的样本,然后保持与 SmolLM 相同的训练混合分布。其中 FineWeb-Edu-dedup 占据了数据集的约 70%。然后根据比例采样其他数据集。对于 Python-Edu,int_score 的截止值也设置为 4。所有随机种子均为 42。
数据集配置
cosmopedia-v2
- 特征:
prompt: 字符串text: 字符串token_length: 整数audience: 字符串format: 字符串seed_data: 字符串
- 分割:
train: 26389065276.651917 字节, 4859727 样本eval: 328795815.588257 字节, 60550 样本test: 328795815.588257 字节, 60550 样本
- 下载大小: 15636874921 字节
- 数据集大小: 27046656907.82843 字节
fineweb-edu-dedup
- 特征:
text: 字符串id: 字符串metadata: 结构体dump: 字符串url: 字符串date: 时间戳file_path: 字符串language: 字符串language_score: 浮点数token_count: 整数score: 浮点数int_score: 整数
- 分割:
train: 118135317002 字节, 22701367 样本eval: 1422835185.437349 字节, 282567 样本test: 1422835185.437349 字节, 282567 样本
- 下载大小: 68445793201 字节
- 数据集大小: 120980987372.8747 字节
python-edu
- 特征:
blob_id: 字符串repo_name: 字符串path: 字符串length_bytes: 整数score: 浮点数int_score: 整数token_counts: 整数
- 分割:
train: 1025332476 字节, 7491902 样本eval: 12709299 字节, 93253 样本test: 12714839 字节, 93253 样本
- 下载大小: 674441595 字节
- 数据集大小: 1050756614 字节
数据文件
- cosmopedia-v2:
train: cosmopedia-v2/train-*eval: cosmopedia-v2/eval-*test: cosmopedia-v2/test-*
- fineweb-edu-dedup:
train: fineweb-edu-dedup/train-*eval: fineweb-edu-dedup/eval-*test: fineweb-edu-dedup/test-*
- python-edu:
train: python-edu/train-*eval: python-edu/eval-*test: python-edu/test-*
搜集汇总
数据集介绍

构建方式
SmolLM-12.5-Corpus数据集的构建基于SmolLM Corpus的高质量子集,旨在训练Chinchilla-optimal GPT-2规模模型。首先从FineWeb-edu-dedup中筛选出int_score≥4的样本,保持与SmolLM相同的训练分布,其中FineWeb-Edu-dedup占语料库的70%。其他数据集如Python-Edu、OpenWebMath、DeepMindMath-small和StackOverFlow则根据特定比例随机采样,所有随机种子均设置为42。测试集和评估集分别从原始SmolLM Corpus中随机抽取1GB数据,并确保与训练集无重复内容。
使用方法
SmolLM-12.5-Corpus适用于训练和验证GPT-2规模的语言模型。用户可以通过Hugging Face平台下载数据集,并根据需要选择不同的配置进行训练。训练集可用于模型的初始训练,测试集和评估集则用于模型的性能评估和调优。由于数据集已经过严格的筛选和比例控制,用户可以直接使用而无需进行额外的预处理。此外,数据集的分割和配置信息清晰,便于用户根据具体需求进行灵活调整。
背景与挑战
背景概述
SmolLM-12.5-Corpus数据集是SmolLM Corpus的一个高质量子集,旨在训练Chinchilla-optimal GPT-2规模的模型,适用于验证模型架构在扩展定律下的表现。该数据集由多个子数据集组成,包括FineWeb-edu-dedup、Cosmopedia-v2、Python-Edu、OpenWebMath、StackOverFlow和DeepMindMath-small,其中FineWeb-edu-dedup占据了约70%的比例。数据集的构建遵循了Pile数据集的方法,确保了训练、测试和评估集的独立性。该数据集的创建时间为近期,主要研究人员和机构包括HuggingFace团队,其核心研究问题在于如何通过高质量数据子集优化模型训练,提升模型在特定任务上的表现。
当前挑战
SmolLM-12.5-Corpus数据集在构建过程中面临多重挑战。首先,数据筛选的复杂性较高,需要从多个来源的子数据集中提取高质量样本,并确保各子数据集的比例符合预设的混合比例。其次,数据去重和清洗工作量大,特别是在处理StackOverFlow等社区生成内容时,需确保数据的纯净性和一致性。此外,数据集的规模庞大,存储和处理的资源需求较高,如何在有限的计算资源下高效完成数据预处理和模型训练也是一个重要挑战。最后,数据集的多样性和代表性需得到保证,以确保模型在不同任务和场景下的泛化能力。
常用场景
经典使用场景
在自然语言处理领域,smollm-12.5-corpus数据集常用于训练和验证小规模语言模型,特别是Chinchilla-optimal GPT-2规模的模型。该数据集通过精选高质量样本,确保了模型在有限参数下的性能优化,适用于模型架构的初步验证和调优。
解决学术问题
该数据集解决了在小规模模型训练中数据质量与多样性平衡的难题。通过筛选高评分样本并保持数据分布的均衡,研究者能够更准确地验证模型在缩放定律下的表现,推动了小规模语言模型的理论研究和实践应用。
实际应用
smollm-12.5-corpus在实际应用中广泛用于教育技术、代码生成和数学问题求解等领域。其高质量的教育类数据和编程相关文本为开发智能辅导系统和代码辅助工具提供了坚实的基础,显著提升了相关应用的准确性和实用性。
数据集最近研究
最新研究方向
在自然语言处理领域,smollm-12.5-corpus数据集的最新研究方向聚焦于优化和验证GPT-2规模模型的架构,特别是在Chinchilla优化框架下。该数据集通过精选高质量样本,如FineWeb-edu-dedup和Python-Edu,确保了数据的多样性和代表性。当前研究热点包括利用这些数据集进行模型训练和评估,以探索模型在不同数据分布下的表现和泛化能力。此外,该数据集的应用还推动了开源社区对大规模语言模型训练资源的共享和标准化,对促进自然语言处理技术的发展具有重要意义。
以上内容由遇见数据集搜集并总结生成



