Tendem Evaluation Dataset
收藏github2025-11-20 更新2025-11-22 收录
下载链接:
https://github.com/Toloka/tendem-evaluation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含94个真实世界任务的评估数据,涵盖运营、营销、分析和销售四个领域,包含任务描述、系统输出结果、质量评分和时间成本等信息,用于比较Tendem混合AI+人类系统与ChatGPT Agent和Upwork自由职业者的性能表现
This dataset contains evaluation data for 94 real-world tasks across four domains: operations, marketing, analytics, and sales. It includes task descriptions, system output results, quality scores, and time costs, and is designed to compare the performance of the Tendem hybrid AI+human system, ChatGPT Agent, and Upwork freelancers.
创建时间:
2025-11-14
原始信息汇总
Tendem Evaluation 数据集概述
数据集基本信息
- 数据集名称:Tendem Evaluation
- 数据来源:Tendem混合AI+人类系统评估
- 任务数量:94个真实世界任务
系统架构
- AI代理:执行常规任务(网页浏览、数据处理、文件操作)
- 人类专家:验证结果、处理模糊案例、确保质量
- 多层质量保证:在交付客户前验证每个可交付成果
评估结果对比
性能指标
| 系统 | 质量(良好率) | 中位数时间(小时) | 中位数价格(美元) |
|---|---|---|---|
| Tendem | 74.5% | 16.4 | $32 |
| Upwork | 53.2% | 35.0 | $50 |
| ChatGPT代理 | 40.4% | 0.13 | 订阅制 |
关键发现
- 质量提升:比Upwork高21.3个百分点
- 交付速度:比Upwork快53%
- 成本效益:中位数成本比Upwork低36%
数据集结构
tendem-benchmark/ ├── input_tasks.jsonl # 94个任务描述 ├── output_results.jsonl # 包含质量评级和时间的输出结果 ├── input_files/ # 按任务ID组织的输入文件 │ └── {task_id}/ └── output_files/ # 系统输出文件 ├── chatgpt_agent/ # ChatGPT代理输出 ├── tendem/ # Tendem系统输出 └── upwork/ # Upwork自由职业者输出
质量评估标准
- 良好(可直接交付客户)
- 中等(需要编辑)
- 差(需要返工)
- 拒绝(拒绝处理)
任务分布
94个任务涵盖4个领域:
- 运营(28个):数据收集、格式转换、自动化
- 营销(24个):内容创作、竞争研究
- 分析(22个):数据分析、仪表板、研究
- 销售(20个):联系人数据、数据丰富
相关资源
- 产品官网:https://tendem.ai
- 完整论文:https://toloka.ai/files/tendem_whitepaper.pdf
搜集汇总
数据集介绍

构建方式
在人工智能与人类协作系统的评估领域,Tendem Evaluation Dataset的构建采用了严谨的实证研究方法。该数据集基于94个真实世界任务,涵盖运营、市场营销、数据分析和销售四大领域,通过对比Tendem混合系统、纯AI代理(ChatGPT Agent)和纯人类工作者(Upwork自由职业者)的表现。每个任务都经过多层级质量保证流程验证,包括AI代理执行结构化工作和人类专家处理模糊案例的双重机制,最终形成包含任务描述、输出结果及质量评级的完整数据记录。
特点
该数据集最显著的特征在于其三维度评估体系,同步追踪任务完成质量、耗时和成本指标。质量评估采用四级标准(优秀/合格/需修改/拒绝),时间记录精确到小时单位,成本统计包含固定费用与订阅制差异。数据样本具有行业代表性,28个运营类任务侧重数据处理,24个营销任务聚焦内容创作,22个分析任务涉及仪表板构建,20个销售任务专注客户数据整理,这种领域分布确保了评估结果的生态效度。
使用方法
研究人员可通过解析仓库中的JSONL文件开展对比实验,input_tasks.jsonl提供原始任务描述,output_results.jsonl包含三大系统的完整输出与质量标签。实践应用时,可分别调用tendem、chatgpt_agent和upwork目录下的输出文件,结合输入文件目录中的辅助材料进行深度分析。该数据集特别适合用于验证人机协同系统在质量控制、效率优化和成本效益方面的综合表现,为智能代理系统的迭代升级提供实证依据。
背景与挑战
背景概述
Tendem评估数据集由Toloka团队于2024年创建,旨在系统评估混合智能系统的性能表现。该数据集聚焦于人工智能与人类专家协同工作的新型计算范式,核心研究在于探索结构化任务分配与质量保障机制的最优配置。通过涵盖运营、营销、分析和销售四大领域的94项真实任务,该数据集为评估人机协作效率提供了标准化基准,对智能代理系统和众包计算领域的发展具有重要推动作用。
当前挑战
在任务质量评估领域,传统方法面临自动化系统可靠性不足与纯人工效率低下的双重困境。数据集构建过程中需克服多维度质量标注的一致性难题,包括准确度、完整度及格式规范等指标的标准化定义。同时,不同任务类型的难度差异与评估标准统一性也构成显著挑战,需建立跨领域任务的等效评估框架以确保比较有效性。
常用场景
经典使用场景
在人工智能与人类协作系统评估领域,Tendem Evaluation Dataset作为基准测试工具,其经典应用体现在系统性能对比分析中。该数据集通过94项涵盖运营、营销、分析和销售的真实任务,为评估混合AI+人类系统的效率与质量提供了标准化框架。研究人员利用其结构化的任务描述和输出结果,能够系统性地比较不同处理模式在任务完成质量、时间消耗及成本控制方面的表现,从而揭示人机协同机制的优势与局限。
衍生相关工作
基于该数据集衍生的经典研究集中在智能体系统架构优化领域。多项工作借鉴其分层质量验证机制,开发了动态任务分配算法,实现了对模糊情境的自动识别与人工介入触发。另有研究沿袭其多系统对比范式,构建了扩展评估框架Tendem-Bench,新增了实时协作效率指标。这些衍生工作共同推动了混合智能系统在自适应工作流、质量溯源等方向的理论深化与工程实践。
数据集最近研究
最新研究方向
在人工智能与人类协作系统评估领域,Tendem Evaluation Dataset作为关键基准工具,正推动混合智能模式的前沿探索。当前研究聚焦于如何优化AI代理与人类专家的任务分配机制,通过对比纯AI系统与纯人工服务的性能差异,揭示协同工作流在质量控制和效率提升方面的潜力。该数据集涵盖运营、营销、分析及销售等多维场景的94项真实任务,其评估框架为构建可信人机协作平台提供了实证基础,相关成果正引发产业界对智能系统标准化评测体系的广泛讨论。
以上内容由遇见数据集搜集并总结生成



