ET40_evaluated_gemini25pro_agent_with_one_reference

Hugging Face2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/xinshuo/ET40_evaluated_gemini25pro_agent_with_one_reference

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了植物刺名称、来源文件名、构建分数、测试运行分数、测试准确度分数、总体分数、示例索引和工作者ID等信息。数据集被划分为训练集，共有37个示例，占用3650字节。

创建时间：

2025-11-19

原始信息汇总

ET40数据集概述

数据集基本信息

数据集名称: ET40_evaluated_gemini25pro_agent_with_one_reference
数据总量: 37个样本
数据集大小: 3,650字节
下载大小: 5,522字节
数据格式: 结构化数据

数据特征结构

thorn_name: 字符串类型，标识名称
src_filename: 字符串类型，源文件名
build_score: 浮点类型，构建评分
test_run_score: 浮点类型，测试运行评分
test_accuracy_score: 浮点类型，测试准确率评分
overall_score: 浮点类型，综合评分
example_index: 整型，示例索引
worker_id: 整型，工作者标识

数据划分

训练集: 包含全部37个样本
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在人工智能代理评估领域，该数据集通过系统化流程构建而成。研究人员选取37个标准测试样本，由Gemini 2.5 Pro代理模型执行任务，并采用多维度评分机制。每个样本记录包含原始问题标识、构建质量评分、运行测试评分及准确率评分，最终通过加权计算得出综合性能指标。数据收集过程严格遵循实验规范，确保评估结果的可靠性与一致性。

特点

本数据集最显著的特点在于其多维评估体系，涵盖构建质量、运行稳定性和准确率三大核心指标。数据集包含37个经过严格标注的样本，每个样本配备完整的元数据信息，包括原始问题来源和执行者标识。其评分数据采用浮点精度记录，支持细粒度的性能分析。紧凑的数据规模与精细的字段设计，使其成为评估AI代理能力的理想基准数据集。

使用方法

使用者可通过标准数据加载接口直接访问该数据集，其训练集包含全部37个标注样本。研究人员可基于多维度评分开展横向对比研究，或通过样本索引追溯具体测试案例。该数据集适用于代理模型性能评估、多任务学习研究等场景，其结构化格式便于直接导入主流机器学习框架进行统计分析。

背景与挑战

背景概述

随着人工智能在代码生成领域的深入发展，评估智能体编程能力的标准化数据集应运而生。ET40数据集由研究团队于近期构建，聚焦于通过多维度指标量化分析代码构建质量与功能实现效果，其核心在于解决自动化编程评估中缺乏统一基准的难题。该数据集通过整合构建分数、测试运行分数及准确率分数等综合度量，为智能体代码生成能力的横向比较提供了科学依据，显著推动了编程智能体在实用性和可靠性方面的研究进程。

当前挑战

该数据集致力于应对代码生成智能体在真实场景中功能正确性与稳定性的评估挑战，具体体现为如何精准量化代码的构建质量与运行时表现。在构建过程中，研究人员需克服多维度评分标准的一致性整合难题，同时确保不同编程任务间评估结果的公平可比性。此外，数据采集还面临自动化测试环境部署的复杂性，以及跨平台代码执行结果的可复现性保障等工程技术瓶颈。

常用场景

经典使用场景

在人工智能评估领域，ET40数据集为多模态智能体的性能验证提供了标准化测试环境。该数据集通过构建得分、测试运行得分和测试准确率得分等结构化指标，系统评估智能体在复杂任务中的综合表现，尤其适用于对比不同模型在相同参考标准下的能力差异。

衍生相关工作

基于该数据集的评估范式，学术界衍生出多个智能体能力基准测试框架。这些工作扩展了多模态任务评估维度，建立了更完善的智能体能力图谱，同时催生了新型评估指标和自动化测试工具，持续推动着智能体技术评估体系的演进与完善。

数据集最近研究