Tessera2025

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/Tessera2025/Tessera2025

下载链接

链接失效反馈

官方服务：

资源简介：

Tessera是一个针对少量资源编程语言（Rust，Go和Julia）的单元测试生成能力的评估基准数据集。每个样本包含一个焦点函数的源代码和生成惯用测试代码所需的元数据。

创建时间：

2025-09-10

原始信息汇总

Tessera 数据集概述

基本信息

许可证: MIT
语言: 代码
标签: Rust、Go、Julia、代码、测试生成、低资源语言、单元测试、基准测试
数据集名称: Tessera
规模类别: 1K<n<10K

数据集摘要

Tessera 是一个基准数据集，用于评估模型在低资源编程语言（Rust、Go 和 Julia）上生成单元测试的能力。每个样本提供焦点函数的源代码和用于生成惯用测试代码的元数据。

数据集结构

特征

function_component: 函数详细信息，包括参数定义、结束行、名称、签名、起始行
function_name: 焦点函数名称
focal_code: 焦点函数的原始源代码
file_path: 文件在存储库中的相对路径
file_content: 包含焦点函数的文件内容
wrap_class: 包装类
class_signature: 类签名
struct_class: 结构类
package_name: 包名称

数据划分

Rust: 374 个样本，34,491,888 字节
Go: 372 个样本，4,577,578 字节
Julia: 417 个样本，6,194,406 字节

技术规格

下载大小: 3,041,115 字节
数据集大小: 45,263,872 字节

用途

用于评估模型生成测试代码的能力，给定焦点函数的源代码和附加上下文。

使用方式

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("solis-soict/Tessera")

加载单个语言划分

rust_dataset = load_dataset("solis-soict/Tessera", split="rust") go_dataset = load_dataset("solis-soict/Tessera", split="go") julia_dataset = load_dataset("solis-soict/Tessera", split="julia")

许可信息

MIT 许可证

搜集汇总

数据集介绍

构建方式

在软件工程领域，单元测试生成是保障代码质量的关键环节，Tessera2025数据集聚焦于低资源编程语言的测试生成挑战。该数据集通过精选Rust、Go和Julia三种语言的开源项目，提取其中具有代表性的焦点函数，每个样本均包含完整的函数源代码、元数据及上下文文件信息，确保数据来源的真实性与多样性。构建过程中严格遵循语言特性，保留了函数签名、参数定义及代码位置等结构化信息，为模型提供丰富的语义上下文。

特点

Tessera2025数据集独具特色，涵盖三种低资源编程语言，样本规模均衡，每语言约372至417个样本。数据集提供多维特征，包括函数组件细节、文件内容及路径，以及包名和类结构等语言特定元数据。其设计注重语言惯用法与测试生成的适配性，样本均源自真实项目，确保了测试场景的实用性与挑战性。数据以标准化结构存储，支持灵活的分语言加载与跨语言对比分析。

使用方法

研究者可借助HuggingFace数据集库便捷加载Tessera2025，通过指定语言分割即可获取相应子集。典型使用流程包括加载完整数据集或按语言拆分，进而输入模型进行测试生成任务。生成结果可与真实测试代码对比，评估模型在低资源语言上的泛化能力与代码生成质量。该数据集适用于基准测试、模型评估及跨语言迁移学习研究，为推进代码智能领域发展提供重要数据支撑。

背景与挑战

背景概述

Tessera2025数据集由学术研究团队于2025年创建，专注于评估低资源编程语言（如Rust、Go和Julia）的单元测试生成能力。该数据集通过提供函数源代码及元数据，支持模型生成符合语言习惯的测试代码，填补了编程语言测试生成领域的研究空白。其设计旨在推动代码智能与软件工程自动化的发展，对提升低资源语言的开发效率具有重要影响。

当前挑战

该数据集核心挑战在于低资源编程语言的测试生成，这些语言缺乏充足的训练数据与成熟工具链，导致模型难以捕捉其独特语法与语义。构建过程中，需克服代码样本收集、元数据标注及跨语言一致性等难题，确保数据质量与代表性。

常用场景

经典使用场景

在软件工程与程序语言处理领域，Tessera2025数据集为评估大语言模型在低资源编程语言环境下的单元测试生成能力提供了标准化基准。研究者通过该数据集能够系统分析模型对Rust、Go和Julia等语言特性的理解深度，检验其生成符合语言习惯的测试代码的准确性与鲁棒性。

衍生相关工作

基于Tessera2025衍生的经典工作包括跨语言测试生成模型PolyTest的提出，以及针对低资源语言语法树嵌入表示的研究。该数据集进一步激发了诸如TestGen-LLM等基准评估框架的构建，促进了学术界与工业界在代码智能测试领域的深度合作。

数据集最近研究