Tendem Evaluation Dataset

github2025-11-20 更新2025-11-22 收录

下载链接：

https://github.com/Toloka/tendem-evaluation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含94个真实世界任务的评估数据，涵盖运营、营销、分析和销售四个领域，包含任务描述、系统输出结果、质量评分和时间成本等信息，用于比较Tendem混合AI+人类系统与ChatGPT Agent和Upwork自由职业者的性能表现

This dataset contains evaluation data for 94 real-world tasks across four domains: operations, marketing, analytics, and sales. It includes task descriptions, system output results, quality scores, and time costs, and is designed to compare the performance of the Tendem hybrid AI+human system, ChatGPT Agent, and Upwork freelancers.

创建时间：

2025-11-14

原始信息汇总

Tendem Evaluation 数据集概述

数据集基本信息

数据集名称：Tendem Evaluation
数据来源：Tendem混合AI+人类系统评估
任务数量：94个真实世界任务

系统架构

AI代理：执行常规任务（网页浏览、数据处理、文件操作）
人类专家：验证结果、处理模糊案例、确保质量
多层质量保证：在交付客户前验证每个可交付成果

评估结果对比

性能指标

系统	质量（良好率）	中位数时间（小时）	中位数价格（美元）
Tendem	74.5%	16.4	$32
Upwork	53.2%	35.0	$50
ChatGPT代理	40.4%	0.13	订阅制

关键发现

质量提升：比Upwork高21.3个百分点
交付速度：比Upwork快53%
成本效益：中位数成本比Upwork低36%

数据集结构

tendem-benchmark/ ├── input_tasks.jsonl # 94个任务描述 ├── output_results.jsonl # 包含质量评级和时间的输出结果 ├── input_files/ # 按任务ID组织的输入文件 │ └── {task_id}/ └── output_files/ # 系统输出文件 ├── chatgpt_agent/ # ChatGPT代理输出 ├── tendem/ # Tendem系统输出 └── upwork/ # Upwork自由职业者输出

质量评估标准

良好（可直接交付客户）
中等（需要编辑）
差（需要返工）
拒绝（拒绝处理）

任务分布

94个任务涵盖4个领域：

运营（28个）：数据收集、格式转换、自动化
营销（24个）：内容创作、竞争研究
分析（22个）：数据分析、仪表板、研究
销售（20个）：联系人数据、数据丰富

相关资源

产品官网：https://tendem.ai
完整论文：https://toloka.ai/files/tendem_whitepaper.pdf

搜集汇总

数据集介绍

构建方式

在人工智能与人类协作系统的评估领域，Tendem Evaluation Dataset的构建采用了严谨的实证研究方法。该数据集基于94个真实世界任务，涵盖运营、市场营销、数据分析和销售四大领域，通过对比Tendem混合系统、纯AI代理（ChatGPT Agent）和纯人类工作者（Upwork自由职业者）的表现。每个任务都经过多层级质量保证流程验证，包括AI代理执行结构化工作和人类专家处理模糊案例的双重机制，最终形成包含任务描述、输出结果及质量评级的完整数据记录。

特点

该数据集最显著的特征在于其三维度评估体系，同步追踪任务完成质量、耗时和成本指标。质量评估采用四级标准（优秀/合格/需修改/拒绝），时间记录精确到小时单位，成本统计包含固定费用与订阅制差异。数据样本具有行业代表性，28个运营类任务侧重数据处理，24个营销任务聚焦内容创作，22个分析任务涉及仪表板构建，20个销售任务专注客户数据整理，这种领域分布确保了评估结果的生态效度。

使用方法

研究人员可通过解析仓库中的JSONL文件开展对比实验，input_tasks.jsonl提供原始任务描述，output_results.jsonl包含三大系统的完整输出与质量标签。实践应用时，可分别调用tendem、chatgpt_agent和upwork目录下的输出文件，结合输入文件目录中的辅助材料进行深度分析。该数据集特别适合用于验证人机协同系统在质量控制、效率优化和成本效益方面的综合表现，为智能代理系统的迭代升级提供实证依据。

背景与挑战

背景概述

Tendem评估数据集由Toloka团队于2024年创建，旨在系统评估混合智能系统的性能表现。该数据集聚焦于人工智能与人类专家协同工作的新型计算范式，核心研究在于探索结构化任务分配与质量保障机制的最优配置。通过涵盖运营、营销、分析和销售四大领域的94项真实任务，该数据集为评估人机协作效率提供了标准化基准，对智能代理系统和众包计算领域的发展具有重要推动作用。

当前挑战

在任务质量评估领域，传统方法面临自动化系统可靠性不足与纯人工效率低下的双重困境。数据集构建过程中需克服多维度质量标注的一致性难题，包括准确度、完整度及格式规范等指标的标准化定义。同时，不同任务类型的难度差异与评估标准统一性也构成显著挑战，需建立跨领域任务的等效评估框架以确保比较有效性。

常用场景

经典使用场景

在人工智能与人类协作系统评估领域，Tendem Evaluation Dataset作为基准测试工具，其经典应用体现在系统性能对比分析中。该数据集通过94项涵盖运营、营销、分析和销售的真实任务，为评估混合AI+人类系统的效率与质量提供了标准化框架。研究人员利用其结构化的任务描述和输出结果，能够系统性地比较不同处理模式在任务完成质量、时间消耗及成本控制方面的表现，从而揭示人机协同机制的优势与局限。

衍生相关工作

基于该数据集衍生的经典研究集中在智能体系统架构优化领域。多项工作借鉴其分层质量验证机制，开发了动态任务分配算法，实现了对模糊情境的自动识别与人工介入触发。另有研究沿袭其多系统对比范式，构建了扩展评估框架Tendem-Bench，新增了实时协作效率指标。这些衍生工作共同推动了混合智能系统在自适应工作流、质量溯源等方向的理论深化与工程实践。

数据集最近研究