five

MixtureVitae-200BT

收藏
Hugging Face2025-06-16 更新2025-06-17 收录
下载链接:
https://huggingface.co/datasets/ontocord/MixtureVitae-200BT
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于大型语言模型预训练的工作版本数据集,包含了来自不同领域的文本,如商业文件、政府网站内容、格式化文本、法律文本、科技文章、软件代码、问答内容、维基百科文本、视频描述以及合成的数据和指令。数据集经过特定的筛选和整理,每个例子大约包含4K个标记,并且包含大量合成数据。所有非来源于基础数据的劳动成果,如组织、标记和数据格式化,都使用ODC-By许可进行授权。

This is a working dataset for large language model (LLM) pre-training. It includes texts from diverse domains, such as business documents, government website content, formatted text, legal texts, technical articles, software code, question-and-answer content, Wikipedia articles, video descriptions, as well as synthetic data and instructions. The dataset has undergone specific filtering and curation, with each sample containing approximately 4K tokens and featuring a large volume of synthetic data. All works derived from non-baseline manual efforts, including content organization, tokenization, and data formatting, are licensed under the ODC-By license.
创建时间:
2025-06-13
原始信息汇总

MixtureVitae-200BT 数据集概述

数据集简介

  • 数据集类型:文本数据集(MixtureVitae许可数据集中的纯文本部分)
  • 许可协议:ODC-By(原始数据包含CC-BY、公共领域或政府网站内容)
  • 主要用途:大型语言模型(LLM)预训练

数据来源与组成

核心数据类别

  1. 商业数据

    • SEC文件
    • Aurora-M1数据集中的议会辩论记录
  2. Fineweb数据

    • .gov.*网站和CC-BY许可网站内容
    • 来源:FineFineweb
    • 特征:附加域名标签以优化训练
  3. 格式化文本

    • 包含JSON/YAML/HTML等格式
    • 来源:Starcoder v1 + Websights
  4. 法律数据

    • 来源:OLC
  5. MAGACorpus

  6. 数学数据

    • 来源:DM math
  7. Nemo数据集

  8. 新闻数据

    • 来源:OLC
  9. 科技数据

    • 主要来源:USPTO(来自Pile和TXT360)
    • 补充:arXiv摘要+CC-BY科学文章
  10. 软件代码

    • 特定语言代码(Python/Java等)
    • 来源:Starcoder v1
  11. Stackexchange数据

    • 主要来源:TXT360 + RedPajama v1
  12. 维基数据

    • MegaWiki
    • TXT 360维基百科的高重复部分
  13. YouTube数据

    • 来源:Common Corpus/Finevideo/VALID
  14. 合成与指令数据

    • 来源:许可数据(CC-BY-SA/Apache等)
    • 包含:Ling-coder/Ring-Lite/Nemo科学数学/Open Thoughts/Prism-math/p3数据集(转为few-shot格式)

数据处理特征

  • 与多个许可数据集存在重叠(Common Corpus/Common Pile/OLC/KL3M等)
  • 采用不同的过滤标准
  • 数据整合为约4K tokens/样本
  • 包含大量合成数据(源自许可数据或获得许可)

许可声明

  • 数据集组织/标记/格式等衍生工作采用ODC-By许可
  • 建议使用者咨询法律顾问评估使用风险

相关资源

  • 主数据集卡片:https://huggingface.co/datasets/ontocord/MixtureVitae
搜集汇总
数据集介绍
main_image_url
构建方式
MixtureVitae-200BT数据集通过整合多源许可协议下的开放数据构建而成,涵盖商业、法律、科技等十二个专业领域。数据来源包括SEC文件、政府网站、学术论文等,采用严格的许可协议筛选机制,确保所有材料符合CC-BY、公共领域或政府网站标准。构建过程中对原始数据进行去重和重组,形成平均约4K tokens的样本单元,并引入合成数据增强多样性。数据集的组织架构和标签系统由创建者独立设计,采用ODC-By许可协议发布。
特点
该数据集最显著的特点是领域覆盖的广度和数据质量的严谨性。不仅包含传统文本数据,还整合了JSON、YAML等结构化格式,每个数据样本均附带领域标签以优化模型训练。特别值得注意的是其包含大量合成指令数据,这些数据通过许可协议兼容的方式生成,为LLM的指令微调提供丰富素材。数据经过专业过滤和归类处理,相同主题内容被系统整合,形成具有上下文连贯性的长文本单元。
使用方法
作为专为LLM预训练设计的语料库,建议使用者首先根据领域标签进行数据筛选,重点关注与目标应用场景匹配的领域。对于指令微调任务,可优先利用其合成的few-shot格式数据。使用前应仔细核查各子集的许可条款,商业应用需特别注意SEC文件和专利数据的合规性要求。数据以标准文本格式存储,可直接接入主流深度学习框架,建议配合领域权重进行分层采样以优化训练效果。
背景与挑战
背景概述
MixtureVitae-200BT数据集是Ontocord团队开发的一个多源混合文本数据集,专为大型语言模型(LLM)的预训练而设计。该数据集整合了来自商业、法律、科技、数学、软件代码等12个领域的多样化文本资源,包括SEC文件、政府网站、学术论文、技术文档等。通过融合Fineweb、MAGACorpus、StackExchange等知名开放数据集的内容,并采用独特的4K tokens分块策略,该数据集为LLM训练提供了高质量的语义多样性。其创新性地引入合成数据增强技术,显著提升了数据覆盖的广度与深度,成为当前开放许可文本资源中最全面的多领域语料库之一。
当前挑战
构建MixtureVitae-200BT面临双重挑战:在领域问题层面,需解决多源异构数据融合带来的语义一致性难题,特别是法律文书与技术文档的术语系统差异;同时平衡商业文本的时效性与学术文献的深度特征。在构建过程中,团队需攻克许可协议兼容性验证的技术壁垒,精确处理CC-BY、ODC-BY等12类许可条款的衍生数据合规问题。数据清洗阶段遭遇非结构化文本标准化挑战,包括HTML/JSON等多格式解析,以及跨语言代码注释的语义保留。最后,4K tokens分块策略要求设计动态窗口算法,在保持文档连贯性的同时避免信息冗余。
常用场景
经典使用场景
在自然语言处理领域,MixtureVitae-200BT数据集作为多源异构文本的集成平台,其经典使用场景主要体现在大规模语言模型的预训练阶段。该数据集通过整合商业文件、法律文书、科技论文等12个垂直领域的文本,为模型提供了跨领域的语义表征学习素材,特别适合训练具有广泛领域适应性的通用语言模型。数据集内4K tokens长度的规范化文本单元设计,有效优化了模型处理长文本的连贯性能力。
实际应用
在实际应用中,该数据集支撑了企业级对话系统的领域迁移能力建设,金融科技公司可基于其商业语料训练合规的财报分析模型。教育机构利用其数学与科学语料开发智能解题系统,法律科技企业则借助精细标注的法律文本优化合同解析算法。数据集的跨语言编程语料更为代码生成模型提供了丰富的训练素材。
衍生相关工作
该数据集催生了多个重要研究方向,包括基于领域标签的课程学习策略研究、长文本建模的块优化算法改进等。其衍生工作涉及知识蒸馏框架Ring-Lite的优化,以及多模态预训练模型Finevideo的文本编码器增强。在指令微调领域,数据集中的合成数据为p3框架的few-shot扩展提供了关键支持,推动了参数高效微调技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作