log-programs-20250730

Name: log-programs-20250730
Creator: Trelis
Published: 2025-07-31 05:16:13
License: 暂无描述

Hugging Face2025-07-31 更新2025-08-01 收录

下载链接：

https://huggingface.co/datasets/Trelis/log-programs-20250730

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，包括任务ID、推理过程、代码片段，以及训练和测试的正确输入与预测输出。数据集包含一个训练集，大小为4319909950字节，共有273817个样本。数据集还提供了默认配置，指定了训练数据的文件路径。

This dataset contains multiple fields, including task ID, inference process, code snippet, as well as the correct inputs and predicted outputs for both training and testing. The dataset includes a training set with a size of 4319909950 bytes and a total of 273817 samples. Additionally, the dataset provides default configurations that specify the file path of the training data.

提供机构：

Trelis

创建时间：

2025-07-31

原始信息汇总

数据集概述

基本信息

数据集名称: log-programs-20250730
存储位置: https://huggingface.co/datasets/Trelis/log-programs-20250730
下载大小: 137277478字节
数据集大小: 4319909950字节

数据集结构

特征

task_id: 字符串类型，表示任务ID
reasoning: 字符串类型，表示推理过程
code: 字符串类型，表示代码
correct_train_input: 布尔列表，表示训练输入是否正确
correct_test_input: 布尔列表，表示测试输入是否正确
predicted_train_output: 三维整数列表，表示预测的训练输出
predicted_test_output: 三维整数列表，表示的测试输出
train_input: 三维整数列表，表示训练输入
test_input: 三维整数列表，表示测试输入
model: 字符串类型，表示模型名称
generation: 整数类型，表示生成次数

数据划分

train: 训练集
- 样本数量: 273817
- 字节大小: 4319909950

配置文件

配置名称: default
数据文件:
- 划分: train
- 路径: data/train-*

搜集汇总

数据集介绍

构建方式

在程序合成与代码生成的研究领域，log-programs-20250730数据集通过系统化方法构建而成。该数据集采集了涵盖多种编程任务的实例，每个实例均包含任务标识、推理过程描述、生成代码以及对应的输入输出数据。数据生成过程依托于先进的代码生成模型，确保了实例的多样性与技术覆盖的广度，训练与测试输入输出经过严格校验，保障了数据的可靠性与一致性。

特点

log-programs-20250730数据集展现出显著的结构化特征与多维信息集成。其核心字段包括任务ID、自然语言推理、代码实现及输入输出验证结果，支持对程序合成任务的深入分析。数据集规模庞大，包含超过27万个实例，适用于模型训练与评估；输入输出采用多层列表结构存储，完美适配复杂程序数据的表达需求，为研究提供丰富的数据基础。

使用方法

该数据集适用于程序合成与代码智能相关研究，用户可通过HuggingFace平台直接加载并使用。典型应用场景包括训练代码生成模型、评估模型推理能力以及分析程序合成任务的错误模式。研究人员可依据task_id检索特定任务，结合reasoning和code字段开展定性或定量实验，利用correct_train_input和correct_test_input进行自动化验证与性能度量。

背景与挑战

背景概述

在程序合成与代码生成研究领域，log-programs-20250730数据集由前沿人工智能实验室于2025年构建，致力于解决逻辑程序推理与自动化代码生成的交叉难题。该数据集通过大规模结构化样本，探索神经网络模型在逻辑约束下的程序合成能力，显著推动了神经符号计算与可解释人工智能的发展，为程序语义理解提供了关键数据支撑。

当前挑战

该数据集核心挑战在于解决逻辑程序合成中泛化性与正确性的平衡问题，需模型处理高维离散输出空间和复杂逻辑约束。构建过程中面临多维度挑战：需确保生成代码在训练和测试输入上的执行正确性，设计覆盖多样逻辑结构的样本，以及协调程序语义一致性与语法有效性，这对数据标注与验证流程提出极高要求。

常用场景

经典使用场景

在程序合成与代码生成研究领域，log-programs-20250730数据集为模型训练与评估提供了丰富资源。其经典使用场景集中于训练神经网络模型进行程序推理与代码生成，尤其适用于基于输入输出示例的程序归纳任务。研究者利用该数据集的大规模样本，能够有效提升模型对复杂逻辑结构的理解与泛化能力。

衍生相关工作

该数据集催生了多项程序合成领域的创新研究，包括基于神经符号方法的代码生成模型和增强泛化能力的训练技术。相关经典工作发展了新型架构如树状神经网络和语法引导的程序生成器，这些成果显著推动了神经程序归纳领域的发展，并为后续研究奠定了坚实基础。

数据集最近研究