log-programs-20250805
收藏Hugging Face2025-08-05 更新2025-08-06 收录
下载链接:
https://huggingface.co/datasets/Trelis/log-programs-20250805
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含编程任务及其相关信息的的数据集。数据集中的字段包括任务ID、推理过程、代码、训练和测试输入的正确性、预测的训练和测试输出、训练和测试输入、使用的模型以及生成信息。数据集仅包含训练集划分,共有331,824个示例,总大小为5,418,373,293字节。
提供机构:
Trelis
创建时间:
2025-08-05
原始信息汇总
数据集概述
基本信息
- 数据集名称: log-programs-20250805
- 存储位置: https://huggingface.co/datasets/Trelis/log-programs-20250805
- 下载大小: 170926895 bytes
- 数据集大小: 5418373293 bytes
数据集结构
- 特征:
task_id: 字符串类型,表示任务IDreasoning: 字符串类型,表示推理过程code: 字符串类型,表示代码correct_train_input: 布尔列表,表示训练输入是否正确correct_test_input: 布尔列表,表示测试输入是否正确predicted_train_output: 三维整数列表,表示预测的训练输出predicted_test_output: 三维整数列表,表示的测试输出train_input: 三维整数列表,表示训练输入test_input: 三维整数列表,表示测试输入model: 字符串类型,表示模型名称generation: 整数类型,表示生成次数
数据划分
- 训练集:
- 名称: train
- 样本数量: 331824
- 字节大小: 5418373293 bytes
配置文件
- 配置名称: default
- 数据文件:
- 划分: train
- 路径: data/train-*
搜集汇总
数据集介绍

构建方式
在程序生成与逻辑推理研究领域,log-programs-20250805数据集通过系统性采集多维度编程任务数据构建而成。该数据集收录了33万余条结构化记录,每条数据包含任务ID、自然语言推理过程、对应代码实现及输入输出测试用例等核心要素。特别值得注意的是,数据构建过程中采用了多模型协同生成策略,通过记录不同模型版本和生成次数,为研究模型迭代对编程能力的影响提供了量化依据。
特点
该数据集最显著的特征在于其完整的程序验证链条设计,不仅包含常规的代码生成内容,还提供了训练集和测试集的输入输出预测结果验证字段。数据结构采用嵌套列表形式精确记录多维数值型输入输出,支持对程序行为进行细粒度分析。模型版本和生成次数的元数据标注,使得研究者能够追溯生成过程,为研究大语言模型在程序合成任务中的表现演变提供了独特视角。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,其标准化的字段设计支持开箱即用的分析流程。典型应用场景包括:通过task_id字段追踪特定编程任务的解决过程;结合reasoning和code字段研究自然语言到代码的转换机制;利用correct_train_input等验证字段评估模型输出的准确性。数据集的列表型数值字段可直接转换为张量,便于与主流深度学习框架集成进行下游任务训练。
背景与挑战
背景概述
log-programs-20250805数据集聚焦于程序推理与代码生成领域,由匿名研究团队于2025年构建,旨在探索机器学习模型在逻辑编程任务中的表现。该数据集收录了超过33万条程序推理样本,每一条记录均包含任务标识、自然语言推理过程、生成代码以及多维度的评估指标。通过提供详尽的训练与测试输入输出对,该数据集为研究程序语义理解、代码生成正确性以及模型泛化能力提供了重要基准,显著推动了程序合成与人工智能编程助手领域的发展。
当前挑战
该数据集的核心挑战在于解决逻辑程序合成中的语义一致性难题,即如何确保模型生成的代码精确匹配自然语言描述的意图。构建过程中面临三重挑战:输入输出数据的多维嵌套结构(如三维整数列表)对存储与计算效率提出苛刻要求;程序正确性评估需设计兼顾语法合规性与逻辑完备性的验证框架;不同编程语言范式的差异性导致跨模型性能对比存在标准化障碍。这些挑战直指程序生成领域可解释性与可靠性研究的深水区。
常用场景
经典使用场景
在程序合成与代码生成领域,log-programs-20250805数据集以其丰富的任务标识、推理过程和代码样本,成为评估模型逻辑推理能力的基准工具。研究者通过分析模型生成的代码与预期输出的匹配度,能够系统性地验证神经网络在程序合成任务中的泛化性能,特别是在处理复杂输入输出映射时的表现。该数据集的结构化特征为程序理解研究提供了标准化评估框架。
实际应用
工业界的自动化代码生成系统广泛采用该数据集进行模型预训练与微调。在智能编程助手开发中,工程师利用其多维评估指标优化模型架构;教育科技领域则基于该数据集构建编程题自动评分系统。金融行业将其应用于业务逻辑代码的自动化验证,显著降低了人工代码审查的成本。
衍生相关工作
该数据集催生了程序合成领域的多项突破性研究,包括神经符号系统的联合训练框架、基于注意力机制的代码生成模型改进方案,以及程序归纳的元学习方法。MIT团队开发的ProgramTransformer架构正是基于该数据集验证了其树状解码器的优越性,相关成果已发表于NeurIPS等顶级会议。
以上内容由遇见数据集搜集并总结生成



