AgentBench|AI代理数据集|基准测试数据集
收藏AgentBench 数据集概述
数据集简介
- 名称:AgentBench
- 目的:评估大型语言模型(LLM)作为智能体在不同环境中的表现
- 特点:
- 首个针对LLM-as-Agent的综合性基准测试
- 包含8个不同的测试环境
- 提供开发和测试两个数据集分割
测试环境
-
新创建的环境:
- 操作系统(OS)
- 数据库(DB)
- 知识图谱(KG)
- 数字卡牌游戏(DCG)
- 横向思维谜题(LTP)
-
基于已发布数据集重新编译的环境:
- 家务处理(HH) - 来自ALFWorld
- 网络购物(WS) - 来自WebShop
- 网络浏览(WB) - 来自Mind2Web
数据集统计
- 交互次数:
- 开发集:约4,000次
- 测试集:约13,000次
扩展版本
- VisualAgentBench:
- 用于评估和训练基于大型多模态模型(LMM)的视觉基础智能体
- 包含5个环境:
- 实体环境:VAB-OmniGibson, VAB-Minecraft
- GUI环境:VAB-Mobile, VAB-WebArena-Lite
- 视觉设计:VAB-CSS
资源需求
任务名称 | 启动时间 | 内存消耗 |
---|---|---|
webshop | ~3分钟 | ~15GB |
mind2web | ~5分钟 | ~1GB |
db | ~20秒 | <500MB |
alfworld | ~10秒 | <500MB |
card_game | ~5秒 | <500MB |
ltp | ~5秒 | <500MB |
os | ~5秒 | <500MB |
kg | ~5秒 | <500MB |
相关资源
- 论文:https://arxiv.org/abs/2308.03688
- 视觉扩展:https://github.com/THUDM/VisualAgentBench
- 旧版本:https://github.com/THUDM/AgentBench/tree/v0.1

Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录