machinelearninglm-scm-synthetic-tabularml
收藏Hugging Face2025-09-13 更新2025-09-14 收录
下载链接:
https://huggingface.co/datasets/MachineLearningLM/machinelearninglm-scm-synthetic-tabularml
下载链接
链接失效反馈官方服务:
资源简介:
MachineLearningLM预训练语料库,由数百万个结构因果模型合成的机器学习任务构成,用于训练大型语言模型以具备强大的基于上下文的机器学习能力。数据集包含表格分类任务,覆盖金融、物理、生物学和医疗保健等多个领域。
创建时间:
2025-09-09
原始信息汇总
MachineLearningLM 预训练语料库数据集概述
基本信息
- 许可证: MIT
- 语言: 英语
- 任务类别: 文本生成
- 标签: 上下文学习、表格数据、机器学习、LLM预训练、因果模型、合成数据
数据集描述
该数据集是为MachineLearningLM框架设计的预训练语料库,旨在为大型语言模型(LLMs)提供强大的上下文机器学习(ML)能力。数据集包含从数百万个结构因果模型(SCMs)合成的机器学习任务,涵盖最多1,024个样本的各种shot数量。该数据集使LLMs能够通过纯上下文学习(ICL)从标准ML任务的众多上下文示例中学习,无需梯度下降。
数据集内容
- 数据来源: 基于结构因果模型(SCMs)合成的多样化机器学习任务
- 应用领域: 表格分类任务,涵盖金融、物理、生物和医疗等多个领域
- 目标效果: 使LLMs在不进行任务特定训练的情况下达到随机森林级别的准确率,展示随着上下文演示数量增加而准确率单调提升的many-shot扩展规律
数据集结构
预训练语料库采用LLaMA Factory的Alpaca格式提示。数据集中的每个样本都是一个JSONL条目,包含以下结构: json { "instruction": "特定机器学习问题的任务指令", "input": "任务的输入数据,序列化为文本,可能包含上下文示例", "output": "机器学习任务的预期输出或预测" }
数据集获取
由于文件较大,数据集已分割为多个部分。完整数据集托管在Google Drive:
- 预热数据集: https://drive.google.com/file/d/1OjD0jICy95lOFp52_2hJoO7KzSiFegLH/view?usp=sharing
- 完整数据集: https://drive.google.com/file/d/1TYsEMI1WNYDzzE_z83Ah-QAmcoaVHKQA/view?usp=sharing
相关资源
- 论文: https://huggingface.co/papers/2509.06806 | https://arxiv.org/pdf/2509.06806
- 代码: https://github.com/HaoAreYuDong/MachineLearningLM
- 项目页面: https://huggingface.co/MachineLearningLM
搜集汇总
数据集介绍

构建方式
在结构化因果模型的理论框架下,该数据集通过数百万个因果模型生成多样化的合成机器学习任务。采用LLaMA Factory的Alpaca格式进行提示词构建,每个样本包含指令、输入和输出三个结构化字段,确保数据的一致性和可处理性。这种构建方式不仅覆盖了金融、物理、生物和医疗等多个领域,还支持少样本到1024样本的大规模上下文学习场景。
特点
该数据集最显著的特征在于其完全基于合成数据构建,避免了真实数据中的隐私和偏差问题。通过结构化的提示词设计,实现了高密度的上下文示例嵌入,使大语言模型能够在不进行梯度更新的情况下掌握机器学习任务。数据集展现出明显的多样本扩展规律,随着上下文示例数量的增加,模型准确率呈现单调上升趋势,最终达到随机森林级别的分类性能。
使用方法
数据集采用标准化的JSONL格式存储,用户可通过官方提供的评估框架进行模型训练和推理。使用流程包括安装依赖包、加载本地模型进行预测,以及通过专用评估器分析结果。推理模块支持单文件处理和批量处理,输出结果可直接用于性能评估。为确保兼容性,建议严格遵循官方提供的推理管道和评估流程。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的突破性进展,其在上下文学习中的潜力逐渐显现。MachineLearningLM数据集由研究团队于2024年推出,旨在通过结构因果模型生成海量合成表格数据,强化语言模型的上下文机器学习能力。该数据集涵盖金融、物理、生物及医疗等多领域分类任务,其核心科学问题在于探索大语言模型能否不依赖梯度下降,仅通过上下文示例实现随机森林级别的分类精度。这一创新性尝试对推动语言模型在自动化机器学习领域的发展具有深远影响,为少样本乃至多样本学习提供了新的范式。
当前挑战
该数据集致力于解决表格数据分类任务中上下文学习的泛化能力挑战,特别是在多样本情境下模型精度与示例数量间的缩放规律问题。构建过程中的技术难点集中于海量结构因果模型的高效生成与验证,需确保合成数据的多样性与真实性。此外,设计令牌高效的提示格式以容纳高密度上下文示例,同时维持模型推理的稳定性,亦是数据集构建的核心挑战。这些技术瓶颈的突破对推动语言模型在表格数据领域的应用具有关键意义。
常用场景
经典使用场景
在机器学习领域,该数据集通过结构化因果模型生成的合成任务序列,为大语言模型提供了丰富的上下文学习素材。其经典应用场景体现在模型无需梯度下降即可处理高维表格数据分类任务,通过在上下文窗口中嵌入多达1024个示例样本,显著提升了模型对金融风控、生物统计和医疗诊断等多领域表格数据的零样本推理能力。
解决学术问题
该数据集有效解决了大语言模型在表格数据机器学习任务中的泛化性能瓶颈问题。通过合成海量结构因果模型生成的训练样本,突破了传统监督学习对标注数据的依赖,证明了上下文学习存在显著的多样本缩放定律——模型准确率随上下文示例数量增加而单调提升,为实现无需参数更新的机器学习推理提供了理论支撑和实践范式。
衍生相关工作
该数据集催生了系列创新性研究,包括基于合成数据的上下文学习理论框架构建和表格数据处理的提示工程优化方法。相关衍生工作拓展了多模态机器学习模型的设计思路,推动了如因果推理增强型语言模型、自适应上下文窗口调度算法等研究方向的发展,为下一代具备机器智能的大语言模型奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



