m1llion-multi
收藏Hugging Face2026-01-29 更新2026-01-30 收录
下载链接:
https://huggingface.co/datasets/m1llion-ai-high-end-group/m1llion-multi
下载链接
链接失效反馈官方服务:
资源简介:
m1llion_multi 是一个生产级高质量文本生成数据集,专为训练 32B 规模的大型语言模型(LLMs)而优化。该数据集包含 2,314,880 个多样化的、经过清理的样本,覆盖 6 个核心类别,总大小约为 1.96 GB(UTF-8 编码的 JSONL 格式)。数据集支持多领域 LLM 训练,平衡覆盖通用和技术内容。主要用途包括文本生成模型的预训练/微调(如 GPT 类 LLMs、代码/数学专用模型),次要用途包括领域适应(代码、数学、学术)、多语言模型训练和质量基准测试。数据集支持英语(主要)和 8 种多语言(法语、德语、西班牙语、中文、日语、俄语、葡萄牙语、意大利语)。每个样本包含必填字段(如文本内容、类别、质量评分)和类别特定字段(如编程语言、数学难度、学术领域等)。数据集推荐按 90% 训练、5% 验证、5% 测试的比例分割使用。
创建时间:
2026-01-23
原始信息汇总
数据集概述:m1llion_multi
1. 数据集描述
1.1 概览
m1llion_multi 是一个生产级、高质量的文本生成数据集,专为训练 320 亿参数规模的大型语言模型(LLMs)而优化。该数据集为工业和研究用例精心策划,包含 2,314,880 个经过清理的多样化样本,涵盖 6 个核心类别,总计约 1.96 GB(UTF-8 编码的 JSONL 格式)。其设计旨在通过平衡覆盖通用和技术内容,支持稳健的多领域 LLM 训练。
1.2 关键属性
| 指标 | 值 |
|---|---|
| 总样本数 | 2,314,880 |
| 总大小 | 1.96 GB (2,010.15 MB) |
| 格式 | JSONL (newline-delimited JSON) |
| 编码 | UTF-8 |
| 质量分数范围 | 0.85–0.99 (所有样本) |
| 重复率 | 0% (已去重) |
| 支持语言 | 英语(主要) + 8 种多语言 (fr, de, es, zh, ja, ru, pt, it) |
1.3 预期用途
- 主要用途:文本生成模型(例如,类 GPT 的 LLMs、代码/数学专用模型)的预训练/微调。
- 次要用途:领域适应(代码、数学、学术)、多语言模型训练、质量基准测试。
1.4 局限性
- 多语言内容仅占数据集的 5%(以英语为核心)。
- 学术内容偏向 STEM 领域(计算机科学、物理学、生物学)。
- 不适用于低资源语言模型训练(多语言子集较小)。
2. 数据集结构
2.1 数据划分(生产级推荐)
针对工业训练,推荐以下划分(符合 LLM 最佳实践):
| 划分 | 百分比 | 样本数 | 用途 |
|---|---|---|---|
| 训练集 | 90% | 2,083,392 | 模型预训练 |
| 验证集 | 5% | 115,744 | 训练稳定性检查 |
| 测试集 | 5% | 115,744 | 最终评估 |
注意:原始数据集未划分;用户必须应用上述划分(或自定义划分)进行生产训练。
2.2 核心数据字段(所有样本)
每个 JSONL 条目包含以下必填字段(为生产流水线标准化):
| 字段 | 类型 | 描述 |
|---|---|---|
text |
string | 主要文本内容(已清理/标准化) |
category |
string | 类别之一:Books/Wikipedia、Code/Programming、Math & Reasoning、Academic/Science、Filtered Web、Multilingual |
quality_score |
float | 质量评分 (0.85–0.99) |
type |
string | 类别特定的内容类型(例如,programming_code、mathematical_reasoning) |
2.3 类别特定字段(生产模式)
| 类别 | 附加字段 |
|---|---|
Code/Programming |
language (str: python/js/sql/go)、explanation (str)、complexity (str)、type (固定: programming_code) |
Math & Reasoning |
difficulty (str: easy/medium/hard)、math_category (str: algebra/calculus/number_theory)、type (固定: mathematical_reasoning) |
Academic/Science |
field (str: computer_science/biology/physics)、subfield (str)、type (固定: academic_writing) |
Books/Wikipedia |
genre (str: fantasy/non_fiction/history)、style (str: narrative/educational)、type (固定: book_excerpt) |
Multilingual |
language (str: 2-letter code)、translation (str: English)、type (固定: multilingual_content) |
Filtered Web |
source (str: technology_news/science_article)、quality (str)、language (固定: en)、type (固定: web_content) |
3. 生产级使用指南
3.1 预处理
- 无需额外清理(数据集已进行生产级清理:标准化空格、移除低质量文本、已去重)。
- 可选:按
quality_score过滤样本(例如,仅保留 ≥0.9 的样本用于高性能模型)。 - 对于多语言模型:对
Multilingual类别进行上采样(从 5% 增加到 10-15%)以提高跨语言性能。
3.2 分词
| 内容类型 | 推荐分词器 |
|---|---|
| 通用/书籍/网络 | gpt2/llama2 tokenizer (HF) |
| 代码 | codebert-base/starencoder (HF) |
| 数学 | latex_tokenizer (custom/HF Community) |
| 多语言 | xlm-roberta-base/llama2-multilingual |
- 生产提示:使用多分词器流水线(HF
TokenizerPipeline)来处理混合内容类型。
3.3 超参数(320 亿参数模型)
| 参数 | 值 |
|---|---|
| 批次大小 | 256 (每 GPU,8x A100 80GB) / 64 (每 GPU,4x A100) |
| 微批次大小 | 8–16 (梯度累积:16–32 步) |
| 训练轮数 | 1–2 (避免过拟合;2.3M 样本) |
| 学习率 | 2e-5 (预热:5% 的步数) |
| 权重衰减 | 0.01 |
| 序列长度 | 2048 (混合内容的最佳选择) |
3.4 硬件推荐
- 最低配置:4x A100 80GB (FP16 训练)
- 生产配置:8x A100 80GB / 4x H100 80GB (BF16 用于更快训练)
- 存储:≥5GB (原始数据集 + 分词缓存)
4. 质量控制(生产验证)
| 检查项 | 方法 |
|---|---|
| 质量分数 | 自动评分 + 人工审核(1% 样本检查) |
| 重复性 | MinHash + Levenshtein 距离(已验证 0% 重复率) |
| 内容有效性 | 领域特定验证(例如,代码可执行,数学解答正确) |
| 偏见 | 审核性别/种族偏见(重点关注网络/书籍类别) |
| 格式一致性 | JSON 模式验证(生产流水线检查) |
5. 下载
5.1 直接下载
- JSONL 文件:https://8050-14bddd19-7e51-480c-b531-184cc74a8b85.sandbox-service.public.prod.myninja.ai/m1llion_multi.jsonl
- 下载门户:https://8050-14bddd19-7e51-480c-b531-184cc74a8b85.sandbox-service.public.prod.myninja.ai/download_page.html
6. 许可证与合规性
- 主要许可证:仅限研究与教育用途 (CC BY-NC-SA 4.0)
- 生产用途:请联系维护者获取商业许可。
- 合规性:
- 所有网络内容均经过过滤以确保版权合规。
- 代码样本均为开源(MIT/Apache 2.0 许可)。
- 学术内容来自开放获取论文 (CC BY)。
7. 引用(生产/研究)
bibtex @dataset{m1llion_multi_2024, author = {SuperNinja AI}, title = {m1llion_multi: High-Quality Training Dataset for 32B Text Generation Models}, year = {2024}, version = {1.0}, url = {https://8050-14bddd19-7e51-480c-b531-184cc74a8b85.sandbox-service.public.prod.myninja.ai/} }
8. 联系与支持
针对生产级别问题(数据集损坏、与 HF 流水线集成、许可):
- 文档:https://example.com/m1llion_multi_docs
- 维护者邮箱:m1llion.ai.team@gmail.com (通用生产联系)
搜集汇总
数据集介绍

构建方式
在构建大规模语言模型训练数据集的过程中,m1llion_multi采用了一套严谨的工业级构建流程。该数据集通过精心筛选和清洗,汇集了来自六个核心领域的文本样本,包括书籍与维基百科、代码编程、数学推理、学术科学、过滤网页以及多语言内容。每个样本均经过质量评分,范围严格控制在0.85至0.99之间,并利用MinHash与Levenshtein距离技术实现了零重复率。数据以UTF-8编码的JSONL格式存储,确保了格式的统一性与处理的高效性,为模型训练提供了坚实的数据基础。
特点
m1llion_multi数据集展现出多维度的高质量特征,其核心在于覆盖领域的多样性与内容的深度。数据集包含超过231万个样本,总量约1.96GB,不仅以英文为主,还融入了法语、德语、西班牙语等八种语言的多语言内容。每个样本均附有详细的元数据,如类别、质量分数及特定领域标签,例如代码样本标注了编程语言与复杂度,数学样本标明了难度与学科分类。这种结构化的设计使得数据集能够精准支持不同领域的模型训练与评估。
使用方法
针对工业级模型训练,该数据集推荐采用90%-5%-5%的标准划分进行训练、验证与测试。用户可通过Hugging Face的datasets库便捷加载JSONL格式的原始数据,并利用内置函数实现数据分割。在预处理阶段,数据集已完成了去重与清洗,用户可根据需求按质量分数进行过滤,或对多语言类别进行上采样以增强模型跨语言能力。训练时建议根据内容类型选用相应的分词器,并参考提供的超参数配置,以在配备多块高端GPU的硬件环境下实现高效模型优化。
背景与挑战
背景概述
随着大规模语言模型(LLM)在自然语言处理领域的广泛应用,对高质量、多样化训练数据的需求日益迫切。m1llion_multi数据集由m1llion ai团队于2024年发布,旨在为32B参数规模的文本生成模型提供生产级训练资源。该数据集涵盖了书籍、代码、数学推理、学术科学、过滤网络文本及多语言内容六大核心类别,共计约231万条经过清洗和去重的样本,总容量达1.96 GB。其设计聚焦于支持工业与研究场景下的多领域模型预训练与微调,尤其强化了通用内容与技术内容的平衡覆盖,为推进LLM在复杂任务上的性能奠定了数据基础。
当前挑战
m1llion_multi数据集致力于解决文本生成模型在多领域、高质量数据需求方面的挑战,其核心问题在于如何构建一个既能支撑大规模模型训练,又具备严格质量控制的异构语料库。在构建过程中,团队面临多重挑战:一是确保数据多样性同时维持高一致性,需通过自动化评分与人工审核相结合的方式,将样本质量分数控制在0.85至0.99区间,并实现零重复率;二是处理多语言内容的有限占比,仅5%的非英语数据可能制约跨语言模型的泛化能力;三是学术内容偏向STEM领域,可能导致人文社科知识的覆盖不足;四是需在版权合规前提下整合开源代码、开放获取论文等异构来源,并维护标准化的JSONL生产架构。
常用场景
经典使用场景
在大型语言模型(LLM)的训练与优化领域,m1llion_multi数据集以其高质量、多领域的文本样本,成为预训练和微调GPT类模型的核心资源。该数据集覆盖书籍、维基百科、代码编程、数学推理、学术科学及多语言内容六大类别,共计超过230万条经过清洗和去重的样本,专为32B规模模型设计。其经典应用场景在于为工业级和学术研究提供均衡的通用与专业内容,支持模型在多任务文本生成中实现稳健性能,尤其在代码生成和数学推理等专项任务上表现出色。
实际应用
在实际工业应用中,m1llion_multi数据集被广泛用于构建生产级文本生成系统,如智能代码助手、学术写作工具和多语言聊天机器人。其结构化字段(如语言、复杂度、领域)便于集成到自动化管道中,提升模型在真实场景中的准确性和效率。例如,在技术新闻过滤或科学文章生成任务中,数据集的高质量内容确保了输出结果的可靠性和专业性,为企业级AI解决方案提供了数据支撑。
衍生相关工作
基于m1llion_multi数据集,衍生了一系列经典研究工作,包括针对代码生成优化的专用模型(如基于CodeBERT的变体)和跨语言推理系统的开发。这些工作利用数据集的分类字段(如编程语言、数学难度)进行领域自适应训练,推动了如多令牌器管道和混合内容处理技术的发展。此外,该数据集还促进了开源社区在模型评估框架和偏差审计工具方面的创新,为LLM的工业化部署奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



