MixtureVitae-200BT

Hugging Face2025-06-16 更新2025-06-17 收录

下载链接：

https://huggingface.co/datasets/ontocord/MixtureVitae-200BT

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于大型语言模型预训练的工作版本数据集，包含了来自不同领域的文本，如商业文件、政府网站内容、格式化文本、法律文本、科技文章、软件代码、问答内容、维基百科文本、视频描述以及合成的数据和指令。数据集经过特定的筛选和整理，每个例子大约包含4K个标记，并且包含大量合成数据。所有非来源于基础数据的劳动成果，如组织、标记和数据格式化，都使用ODC-By许可进行授权。

This is a working dataset for large language model (LLM) pre-training. It includes texts from diverse domains, such as business documents, government website content, formatted text, legal texts, technical articles, software code, question-and-answer content, Wikipedia articles, video descriptions, as well as synthetic data and instructions. The dataset has undergone specific filtering and curation, with each sample containing approximately 4K tokens and featuring a large volume of synthetic data. All works derived from non-baseline manual efforts, including content organization, tokenization, and data formatting, are licensed under the ODC-By license.

创建时间：

2025-06-13

原始信息汇总

MixtureVitae-200BT 数据集概述

数据集简介

数据集类型：文本数据集（MixtureVitae许可数据集中的纯文本部分）
许可协议：ODC-By（原始数据包含CC-BY、公共领域或政府网站内容）
主要用途：大型语言模型(LLM)预训练

数据来源与组成

核心数据类别

商业数据
- SEC文件
- Aurora-M1数据集中的议会辩论记录
Fineweb数据
- .gov.*网站和CC-BY许可网站内容
- 来源：FineFineweb
- 特征：附加域名标签以优化训练
格式化文本
- 包含JSON/YAML/HTML等格式
- 来源：Starcoder v1 + Websights
法律数据
- 来源：OLC
MAGACorpus
数学数据
- 来源：DM math
Nemo数据集
新闻数据
- 来源：OLC
科技数据
- 主要来源：USPTO（来自Pile和TXT360）
- 补充：arXiv摘要+CC-BY科学文章
软件代码
- 特定语言代码（Python/Java等）
- 来源：Starcoder v1
Stackexchange数据
- 主要来源：TXT360 + RedPajama v1
维基数据
- MegaWiki
- TXT 360维基百科的高重复部分
YouTube数据
- 来源：Common Corpus/Finevideo/VALID
合成与指令数据
- 来源：许可数据（CC-BY-SA/Apache等）
- 包含：Ling-coder/Ring-Lite/Nemo科学数学/Open Thoughts/Prism-math/p3数据集（转为few-shot格式）

数据处理特征

与多个许可数据集存在重叠（Common Corpus/Common Pile/OLC/KL3M等）
采用不同的过滤标准
数据整合为约4K tokens/样本
包含大量合成数据（源自许可数据或获得许可）

许可声明

数据集组织/标记/格式等衍生工作采用ODC-By许可
建议使用者咨询法律顾问评估使用风险

相关资源

主数据集卡片：https://huggingface.co/datasets/ontocord/MixtureVitae

搜集汇总

数据集介绍

构建方式

MixtureVitae-200BT数据集通过整合多源许可协议下的开放数据构建而成，涵盖商业、法律、科技等十二个专业领域。数据来源包括SEC文件、政府网站、学术论文等，采用严格的许可协议筛选机制，确保所有材料符合CC-BY、公共领域或政府网站标准。构建过程中对原始数据进行去重和重组，形成平均约4K tokens的样本单元，并引入合成数据增强多样性。数据集的组织架构和标签系统由创建者独立设计，采用ODC-By许可协议发布。

特点

该数据集最显著的特点是领域覆盖的广度和数据质量的严谨性。不仅包含传统文本数据，还整合了JSON、YAML等结构化格式，每个数据样本均附带领域标签以优化模型训练。特别值得注意的是其包含大量合成指令数据，这些数据通过许可协议兼容的方式生成，为LLM的指令微调提供丰富素材。数据经过专业过滤和归类处理，相同主题内容被系统整合，形成具有上下文连贯性的长文本单元。

使用方法

作为专为LLM预训练设计的语料库，建议使用者首先根据领域标签进行数据筛选，重点关注与目标应用场景匹配的领域。对于指令微调任务，可优先利用其合成的few-shot格式数据。使用前应仔细核查各子集的许可条款，商业应用需特别注意SEC文件和专利数据的合规性要求。数据以标准文本格式存储，可直接接入主流深度学习框架，建议配合领域权重进行分层采样以优化训练效果。

背景与挑战

背景概述

MixtureVitae-200BT数据集是Ontocord团队开发的一个多源混合文本数据集，专为大型语言模型（LLM）的预训练而设计。该数据集整合了来自商业、法律、科技、数学、软件代码等12个领域的多样化文本资源，包括SEC文件、政府网站、学术论文、技术文档等。通过融合Fineweb、MAGACorpus、StackExchange等知名开放数据集的内容，并采用独特的4K tokens分块策略，该数据集为LLM训练提供了高质量的语义多样性。其创新性地引入合成数据增强技术，显著提升了数据覆盖的广度与深度，成为当前开放许可文本资源中最全面的多领域语料库之一。

当前挑战

构建MixtureVitae-200BT面临双重挑战：在领域问题层面，需解决多源异构数据融合带来的语义一致性难题，特别是法律文书与技术文档的术语系统差异；同时平衡商业文本的时效性与学术文献的深度特征。在构建过程中，团队需攻克许可协议兼容性验证的技术壁垒，精确处理CC-BY、ODC-BY等12类许可条款的衍生数据合规问题。数据清洗阶段遭遇非结构化文本标准化挑战，包括HTML/JSON等多格式解析，以及跨语言代码注释的语义保留。最后，4K tokens分块策略要求设计动态窗口算法，在保持文档连贯性的同时避免信息冗余。

常用场景

经典使用场景

在自然语言处理领域，MixtureVitae-200BT数据集作为多源异构文本的集成平台，其经典使用场景主要体现在大规模语言模型的预训练阶段。该数据集通过整合商业文件、法律文书、科技论文等12个垂直领域的文本，为模型提供了跨领域的语义表征学习素材，特别适合训练具有广泛领域适应性的通用语言模型。数据集内4K tokens长度的规范化文本单元设计，有效优化了模型处理长文本的连贯性能力。

实际应用

在实际应用中，该数据集支撑了企业级对话系统的领域迁移能力建设，金融科技公司可基于其商业语料训练合规的财报分析模型。教育机构利用其数学与科学语料开发智能解题系统，法律科技企业则借助精细标注的法律文本优化合同解析算法。数据集的跨语言编程语料更为代码生成模型提供了丰富的训练素材。

衍生相关工作

该数据集催生了多个重要研究方向，包括基于领域标签的课程学习策略研究、长文本建模的块优化算法改进等。其衍生工作涉及知识蒸馏框架Ring-Lite的优化，以及多模态预训练模型Finevideo的文本编码器增强。在指令微调领域，数据集中的合成数据为p3框架的few-shot扩展提供了关键支持，推动了参数高效微调技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集