SuperCLUE-Agent|大型语言模型数据集|代理能力评估数据集
收藏SuperCLUE-Agent 数据集概述
数据集简介
- 名称: SuperCLUE-Agent
- 类型: Agent智能体中文原生任务能力测评基准
- 更新日期: 2023-10-24
主要功能
- 三大能力测评:
- 工具使用
- 任务规划
- 长短期记忆
- 十大基础任务测评:
- 任务分解
- 自我反思
- 思维链
- 调用API
- 检索API
- 规划API
- 通用工具使用
- 多文档QA
- 长程对话
- 示例学习
排行榜
三大能力排行榜
序号 | 模型 | 机构 | 工具使用 | 任务规划 | 长短期记忆 |
---|---|---|---|---|---|
1 | GPT4 | OpenAI | 90.23 | 81.88 | 66.67 |
2 | ChatGLM3-Turbo | 清华&智谱AI | 73.87 | 68.37 | 77.03 |
3 | Claude2-100K | Anthropic | 65.08 | 52.04 | 73.97 |
十大基础任务排行榜
模型 | 总分 | 任务分解 | 自我反思 | 思维链 | 调用API | 检索API | 规划API | 通用工具使用 | 多文档QA | 长程对话 | 示例学习 |
---|---|---|---|---|---|---|---|---|---|---|---|
GPT4 | 80.56 | 76.15 | 94.69 | 76.35 | 87.70 | 90.66 | 82.22 | 100.00 | 67.97 | 60.20 | 73.79 |
ChatGLM3-Turbo | 73.09 | 100.00 | 52.13 | 51.00 | 49.00 | 93.88 | 72.00 | 81.00 | 90.62 | 63.00 | 78.00 |
Claude2-100K | 63.82 | 42.77 | 64.04 | 51.73 | 52.36 | 74.52 | 73.14 | 61.42 | 59.55 | 68.60 | 94.53 |
示例展示
工具使用
- 调用API: 考察AI Agent根据API描述精确调用API并正确响应的能力。
- 检索API: 考察AI Agent选择解决用户需求的API并通过文档学习使用的能力。
- 规划API: 考察AI Agent在复杂请求中进行多次API调用的能力。
- 通用工具使用: 考察大模型使用通用工具的能力。
任务规划
- 任务分解: 评估AI Agent将大型任务分解为较小、可管理子目标的能力。
- 自我反思: 评估AI Agent对过去行为进行自我批评和反思的能力。
- 思维链(CoT): 考察AI Agent通过逐步思考解决问题的能力。
长短期记忆
- 示例学习(In-context Learning): 考察AI Agent通过提示工程解决新任务的能力。
- 长程对话: 考察AI Agent在长对话中检索和切换主题的能力。
- 多文档问答: 考察AI Agent在多个文档中提取并组合答案的能力。

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
12306车次数据库
本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。
github 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录