THEMISTO

Name: THEMISTO
Creator: JetBrains Research
Published: 2025-04-17 00:07:18
License: 暂无描述

arXiv2025-04-17 更新2025-04-19 收录

下载链接：

https://zenodo.org/records/14861889

下载链接

链接失效反馈

官方服务：

资源简介：

THEMISTO数据集由JetBrains Research创建，包含Jupyter笔记本开发轨迹，用于评估大型语言模型在预测代码输出和代码生成任务中利用运行时信息的能力。该数据集由29个笔记本的超过9000次单元格执行组成，不仅包括环境和笔记本的最终版本，还包括笔记本中的中间和调试步骤，这些是模型应支持开发者的关键阶段。数据集旨在解决代码语言模型中融入运行时信息的挑战，推动该领域的进一步研究。

The THEMISTO dataset was created by JetBrains Research. It comprises Jupyter notebook development trajectories, designed to evaluate the ability of large language models (LLMs) to leverage runtime information for code output prediction and code generation tasks. This dataset includes over 9,000 cell executions across 29 notebooks, covering not only the final versions of the execution environments and notebooks, but also the intermediate and debugging steps within the notebooks—critical stages where models should support developers. The dataset aims to address the challenges of integrating runtime information into code language models, and advance further research in this field.

提供机构：

JetBrains Research

创建时间：

2025-04-17

搜集汇总

数据集介绍

构建方式

THEMISTO数据集的构建基于Jupyter笔记本的开发轨迹，通过记录开发者在笔记本中执行单元格的顺序及其运行时状态来形成完整的数据序列。数据集来源于JuNE数据集，包含了29个笔记本的开发过程，记录了超过9,000次单元格执行事件。研究人员通过重新执行部分笔记本并收集运行时信息（如内存负载、执行时间等）来构建轨迹，最终筛选出具有代表性的200个样本，确保数据在长度和复杂度上的多样性。

特点

THEMISTO数据集的核心特点在于其动态性和上下文丰富性。它不仅包含静态代码片段，还记录了代码执行的完整轨迹，包括运行时变量、内存状态和输出结果。数据集特别设计了两个任务：下一单元格预测和单元格输出预测，旨在评估模型对运行时信息的利用能力。此外，数据集还提供了多样化的样本分布，涵盖了不同长度和复杂度的代码片段，为模型评估提供了全面的测试场景。

使用方法

使用THEMISTO数据集时，研究人员可以通过提供的轨迹数据评估模型在代码生成和输出预测任务中的表现。数据集支持两种主要任务：预测下一个单元格的代码内容以及给定单元格的输出结果。评估时可采用精确匹配、ROUGE-L和ChrF等指标。为了充分利用运行时信息，建议将轨迹中的上下文特征（如变量状态、内存使用等）纳入模型输入。数据集还提供了基线模型的性能参考，帮助研究者对比和改进模型效果。

背景与挑战

背景概述

THEMISTO是由JetBrains Research的Konstantin Grotov和Sergey Titov于2025年提出的一个基于Jupyter notebooks运行时信息的基准测试数据集。该数据集聚焦于探索大型语言模型如何利用运行时上下文信息来预测代码输出和生成后续代码单元，填补了当前代码生成研究中动态执行信息利用不足的空白。通过记录开发者在Jupyter notebooks中的完整执行轨迹，包括代码单元内容、运行时变量状态及执行环境等动态特征，该数据集为研究代码模型的运行时感知能力提供了重要基础设施，推动了交互式编程辅助领域的发展。

当前挑战

该数据集面临的核心领域挑战在于如何使语言模型有效理解和利用动态运行时信息，当前主流模型在预测代码输出和后续代码单元任务中的表现显示，即使提供完整运行时上下文，模型的精确匹配率仍不足20%。构建过程中的技术挑战包括：1)多模态轨迹数据的采集与序列化，需完整记录代码、输出、内存状态等异构信息；2)执行环境复现的复杂性，要求精确还原变量状态和内核环境；3)数据多样性限制，原始数据仅来自少量参与者的特定任务场景，难以覆盖真实开发中的广泛用例。

常用场景

经典使用场景

THEMISTO数据集作为Jupyter笔记本开发轨迹的基准测试工具，主要用于评估大型语言模型（LLMs）在预测代码输出和生成代码时利用运行时信息的能力。通过记录开发者在Jupyter笔记本中的操作序列，包括单元格内容及其执行后的运行时状态，该数据集为研究动态代码生成和运行时上下文理解提供了标准化测试环境。其经典使用场景包括模型在代码补全和生成任务中如何整合运行时变量、内存状态等动态信息，从而提升开发效率。

衍生相关工作

该数据集推动了多项动态代码分析研究，包括CruxEval和REval等基准测试的扩展工作，这些研究聚焦于执行路径预测和程序状态建模。基于THEMISTO的轨迹数据，后续研究如TRACED提出了运行时感知的预训练方法，而RLEF框架则探索了结合编译器反馈的强化学习范式。这些工作共同构成了代码生成领域动态上下文理解的技术脉络。

数据集最近研究