marin-community/synth-bootstrap-trial
收藏Hugging Face2026-05-08 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/marin-community/synth-bootstrap-trial
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含多种算法任务的数据集,用于评估或训练模型在算法理解和执行方面的能力。数据集包括多个配置,覆盖经典算法如广度优先搜索、二分查找、连通分量、迪杰斯特拉最短路径、弗洛伊德-沃舍尔全源最短路径、插入排序、最长公共子序列长度、最长递增子序列、普里姆最小生成树、拓扑排序等。每个配置提供文本描述、输入、目标输出、规范文本、聊天文本、任务家族、任务名称、求解器任务名称、配置文件、种子、域种子、索引、源代码提交和元数据JSON等特征。数据集仅包含验证集,每个配置有1000个示例,适用于算法推理、代码生成或自然语言处理任务的研究。
This dataset is a collection of various algorithmic tasks designed for evaluating or training models in algorithm understanding and execution. It includes multiple configurations covering classic algorithms such as breadth-first search, binary search, connected components, Dijkstras shortest path, Floyd-Warshall all-pairs shortest path, insertion sort, longest common subsequence length, longest increasing subsequence, Prims minimum spanning tree, topological sort, and more. Each configuration provides features like id, text, input, target, canonical text, chat text, family, task name, solver task name, profile, seed, domain seed, index, source commit, and metadata JSON. The dataset only contains a validation split with 1000 examples per configuration, suitable for research in algorithmic reasoning, code generation, or natural language processing tasks.
提供机构:
marin-community
搜集汇总
数据集介绍

构建方式
synth-bootstrap-trial数据集通过合成技术构建,旨在为经典算法推理任务提供高质量的模拟数据。该数据集涵盖了多种算法领域,包括图论中的广度优先搜索(BFS)、最短路径(Dijkstra)、连通分量(Connected Components)与拓扑排序(Topological Sort),以及排序与搜索中的插入排序(Insertion Sort)、二分查找(Binary Search)和动态规划问题如最长公共子序列(LCS)、最长递增子序列(LIS)、硬币找零(Coin Change)及编辑距离(Edit Distance)。数据集将每个算法任务细分为标准版本与5-shot上下文学习(ICL)版本,并分别以clrs_style与native两种格式组织,其中clrs_style遵循CLRS基准的标准化提示结构,native则采用更为自然的语言描述。每个配置均包含验证集,示例数量固定为1000条。数据条目囊括了输入输出字段、规范化文本、用于API调用的oai_chat_text格式,以及详细的元数据,确保数据还原度与可复现性。
特点
该数据集最鲜明的特点在于其双重格式设计,既提供了严格遵循CLRS基准的标准化模板,又保留了面向通用语言模型的原生叙述风格,这使研究者能够深入探究模型在不同表征下的算法推理表现。每个配置均配备5-shot ICL版本,通过在提示中嵌入示例,有效评估大语言模型在少样本条件下的能力迁移。数据集中包含的seed与domain_seed字段支持对随机生成的算法实例进行严格复现,而metadata_json字段则存储了丰富的辅助信息,便于进行细粒度的性能分析。各任务均聚焦于经典算法,覆盖了从基础数据结构到复杂动态规划的广泛范畴,尤其适合评估模型对执行轨迹与逻辑步骤的理解能力。
使用方法
使用者可通过HuggingFace Datasets库加载该数据集,并根据需要选择具体的config_name,例如加载CLRS风格的BFS任务可使用'clrs_style_clrs_bfs',而需要5-shot示例时则可选用带'_5shot_icl'后缀的配置。每个样本中的text字段可直接作为模型输入,target字段对应期望输出,而oai_chat_text字段专为兼容OpenAI聊天API设计,可用于快速部署模型微调或评估。验证集已内置划分,无需额外处理。由于数据为合成生成且规模适中,适合直接用于少样本提示实验、指令微调及算法推理能力的基准测试,研究者可基于metadata中的信息做分组对比或消融分析。
背景与挑战
背景概述
在计算科学与人工智能的交叉领域,算法推理能力的自动化评测一直是制约大语言模型在程序合成与逻辑推理任务中发展的关键瓶颈。synth-bootstrap-trial数据集由致力于算法推理研究的团队构建,旨在系统评估和提升模型在经典算法任务上的表现。该数据集覆盖了广度优先搜索、二分查找、迪杰斯特拉最短路径、弗洛伊德-沃舍尔算法、插入排序、最长公共子序列、最长递增子序列、最小生成树(普里姆算法)及拓扑排序等十余种核心算法种类,其设计参考了CLRS基准的风格,并提供了原生(native)与少量示例上下文学习(5-shot ICL)两种评测配置。数据集的构建结合了自动化合成与人工验证流程,通过引入seed与domain_seed等参数确保生成样本的多样性与可控性,为算法理解与执行能力的量化评估开辟了一条具有高度可重复性的道路。
当前挑战
该数据集所应对的领域挑战主要来自大语言模型在算法步骤推演与状态跟踪方面的天然缺陷,传统自然语言处理任务评测难以触及算法执行过程中的逻辑连续性与中间状态准确性。构建过程中,研究者面临的核心难题一方面在于如何将抽象的算法伪代码转化为结构清晰、特征完备的输入-目标对,并保留算法执行时的中间变量关系(如canonical_text与oai_chat_text字段的设计);另一方面在于如何平衡样例的难度梯度与多样性,防止合成数据过度简化或偏向特定数据分布,从而确保评测结果的泛化意义。此外,多配置(CLRS风格与原生风格)及多轮示例(0-shot与5-shot)的并行设计也增加了数据一致性维护与元信息管理的复杂性。
常用场景
经典使用场景
在算法推理与神经符号计算这一前沿探索领域中,synth-bootstrap-trial数据集以其精心构造的算法执行轨迹样本而独树一帜。它涵盖了广度优先搜索、二分查找、连通分量、迪杰斯特拉最短路径、弗洛伊德-沃舍尔算法、插入排序、最长公共子序列、最长递增子序列、最小生成树、拓扑排序以及动态规划等多种经典算法。该数据集最经典的使用场景,是作为评估和训练大语言模型执行算法推理能力的基准测试集。通过提供包含标准文本以及面向OpenAI聊天格式的多形态输入输出对,它能够细致入微地检验模型在理解算法问题描述、模拟逐步执行过程以及生成精确最终答案方面的潜力,从而成为衡量模型算法逻辑思维成熟度的关键标尺。
衍生相关工作
围绕synth-bootstrap-trial数据集,一系列具有里程碑意义的衍生工作如雨后春笋般涌现。经典之作包括那些专注于利用该数据集的轨迹信息来增强模型动态推理能力的‘思维链’或‘算法提示’方法的研究,它们探究了如何通过展示模型自身的生成轨迹来纠正错误。此外,该数据集还催生了大量关于‘神经算法推理器’的改进工作,这类工作旨在将经典算法的归纳偏置直接嵌入到神经网络架构中,以实现对未知规模上算法行为的高保真模拟。这些衍生的学术探索不仅显著提升了大语言模型在数学与逻辑任务上的表现,还搭建了一条连接传统算法理论与现代深度学习实践的坚实桥梁,引领了数十项后续研究的方向。
数据集最近研究
最新研究方向
在算法推理与神经符号计算交叉的前沿领域,synth-bootstrap-trial数据集通过整合经典算法如广度优先搜索、二分查找、迪杰斯特拉最短路径及动态规划方法,为大语言模型的结构化推理能力评估提供了系统性基准。该数据集聚焦于算法步骤的文本化表达与目标输出的对齐,涵盖原生任务描述与CLRS算法风格两种范式,尤其包含5-shot上下文学习配置,旨在探索模型在少样本情境下对算法逻辑的泛化与迁移能力。这一研究方向与当前热点事件如大型语言模型在代码生成与数学推理中的可解释性需求紧密相连,其意义在于推动模型从表面模式匹配向深层算法理解的跃迁,为构建更鲁棒、可验证的智能推理系统铺平道路。
以上内容由遇见数据集搜集并总结生成



