CoRE

github2026-04-16 更新2026-04-18 收录

下载链接：

https://github.com/ZJUSig/CoRE

下载链接

链接失效反馈

官方服务：

资源简介：

CoRE是一个用于代码推理研究的数据集仓库，专注于代码的中间状态理解、细粒度推理和输入输出预测。该仓库包含两个核心数据文件：`core_io.json`（输入输出风格的代码样本）和`core_qa.json`（关于执行步骤的细粒度问答样本）。数据集覆盖了60个源任务，包含来自7个模型的输出。

CoRE is a dataset repository for code reasoning research, focusing on intermediate state understanding of code, fine-grained reasoning, and input-output prediction. This repository contains two core data files: `core_io.json` (input-output style code samples) and `core_qa.json` (fine-grained question-answering samples about execution steps). The dataset covers 60 source tasks and includes outputs from 7 models.

创建时间：

2026-04-13

原始信息汇总

CoRE 数据集概述

数据集基本信息

数据集名称：CoRE
核心定位：用于代码推理研究的数据集，重点关注代码的中间状态理解、细粒度推理以及输入输出预测。
数据集地址：https://github.com/ZJUSig/CoRE

数据文件与规模

数据集包含两个核心数据文件：

core_io.json：包含 1978 个输入输出风格的代码样本，覆盖 60 个源任务，包含来自 7 个模型的输出。
core_qa.json：包含 243 个围绕执行步骤构建的细粒度问答样本。

数据文件详情

1. `core_io.json`

内容：标准的输入输出代码样本。
典型记录字段：
- id：唯一样本标识符，通常由任务ID和样本索引组成。
- input：程序输入，以字符串形式存储。
- output：预期程序输出。
- code：待执行或推理的代码片段。
- model_used：与代码/样本关联的模型。
典型用例：
- 程序输入输出预测
- 代码执行评估
- 代码推理基准测试
- 生成程序上的跨模型比较

2. `core_qa.json`

内容：围绕执行步骤构建的细粒度问答样本，旨在评估模型是否真正理解程序在特定执行时刻的局部程序状态、控制流和变量更新。
典型记录字段：
- target_step_index：问题针对的执行步骤索引。
- target_line_number：代码中的目标行号。
- complexity_type：样本的推理复杂度标签。
- reasoning：解释该步骤为何具有挑战性或值得注意。
- question：向模型/评估者提出的问题。
- ground_truth：参考答案。
- answer_type：答案类型，如 integer、boolean 或 string。
- id：样本标识符。
- model_used：与样本关联的模型。
- source_code：原始源代码。
- input：程序输入。
- output：程序输出。
- meta_data：附加元数据，如函数名、源模型和圈复杂度。
典型用例：
- 执行轨迹理解
- 变量状态跟踪
- 中间步骤推理评估
- 以代码为中心的问答基准构建

主要特点

同时涵盖最终输出预测和中间步骤问答。
专注于具有挑战性的推理模式，如循环边界、分支、状态累积和嵌套逻辑。
保留源代码、输入、输出和元数据，以确保可复现性和分析。
包含与多个模型关联的样本，适用于跨模型比较。

使用注意事项

input 和 output 主要以字符串形式存储，可能需要特定于任务的解析。
样本间的代码风格和函数签名不完全统一，预处理可能有用。
core_qa.json 特别适合作为细粒度评估集，而不仅仅是监督训练数据。

搜集汇总

数据集介绍

构建方式

在代码推理研究领域，CoRE数据集的构建聚焦于程序执行的中间状态理解与细粒度推理。该数据集通过整合来自60个源任务的代码样本，精心设计了两种核心数据文件：core_io.json包含1978个输入输出风格的代码样本，每个样本均关联特定模型，并涵盖代码片段、输入输出及元数据；core_qa.json则包含243个围绕执行步骤构建的细粒度问答样本，针对循环边界、条件分支等复杂推理模式，标注了目标步骤索引、问题及真实答案，以支持对程序状态变化的深度分析。

使用方法

使用CoRE数据集时，研究者可通过Python直接加载JSON文件，便捷访问样本数据。针对输入输出预测任务，可依据model_used等字段筛选特定模型样本进行基准测试；对于细粒度推理评估，则可利用core_qa.json中的问题与真实答案，构建对执行轨迹理解、变量状态跟踪等能力的量化分析。数据集特别适用于代码推理、程序执行理解等研究方向，但需注意输入输出多为字符串格式，可能需根据任务需求进行解析预处理。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码推理研究旨在提升模型对程序执行逻辑的深层理解。CoRE数据集应运而生，专注于中间状态理解、细粒度推理及输入输出预测，由相关研究团队构建并随论文草稿发布。该数据集通过整合来自多个模型的代码样本，针对循环边界、条件分支及状态累积等复杂推理模式，为评估模型在程序执行轨迹中的细粒度认知能力提供了标准化基准，推动了代码智能向更精确、可解释的方向发展。

当前挑战

CoRE数据集致力于解决代码推理中的核心挑战，即在动态执行环境中准确预测程序输出并理解中间状态变化，这要求模型超越表层语法分析，把握控制流与变量演变的细微逻辑。在构建过程中，挑战体现在如何系统化地捕捉多样化的推理模式，并确保样本在代码风格、函数签名方面的异质性不影响评估一致性，同时需平衡数据规模与细粒度标注的深度，以支撑可靠的跨模型比较与可复现性分析。

常用场景

经典使用场景

在代码推理研究领域，CoRE数据集为评估模型对程序执行过程的深层理解提供了关键基准。其经典使用场景聚焦于通过输入输出预测和细粒度问答任务，系统性地检验模型在循环边界、条件分支及状态累积等复杂逻辑模式下的推理能力。研究者常利用该数据集构建代码执行轨迹的评估框架，以量化模型在追踪变量状态、预测中间结果及理解控制流方面的性能，从而推动代码智能向更精细、可解释的方向发展。

解决学术问题

CoRE数据集有效应对了代码推理研究中长期存在的挑战，即如何超越简单的输入输出匹配，深入评估模型对程序中间状态的认知。它通过提供涵盖多模型生成代码的细粒度问答样本，解决了在动态执行环境中验证模型推理准确性的难题。该数据集的意义在于为学术界建立了一个可复现的评估标准，促进了代码理解从黑箱预测向透明化、步骤化分析的范式转变，对提升程序合成与代码智能的可信度具有深远影响。

实际应用

在实际应用层面，CoRE数据集为自动化代码审查、智能编程助手及教育工具的开发提供了重要支撑。例如，在辅助编程教学中，可利用其细粒度问答样本设计交互式调试练习，帮助学生可视化程序执行步骤；在工业级代码生成系统中，该数据集能用于检验生成代码在关键执行点上的逻辑一致性，从而降低潜在运行时错误。这些应用显著提升了代码生成与理解技术在实践中的可靠性与实用性。

数据集最近研究