five

ScoootScooob/clawbench-results

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/ScoootScooob/clawbench-results
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: submission_id dtype: string - name: model dtype: string - name: provider dtype: string - name: timestamp dtype: string - name: openclaw_version dtype: string - name: benchmark_version dtype: string - name: overall_score dtype: float64 - name: overall_completion dtype: float64 - name: overall_trajectory dtype: float64 - name: overall_behavior dtype: float64 - name: judge_model dtype: string - name: overall_judge_score dtype: float64 - name: overall_judge_confidence dtype: float64 - name: overall_judge_pass_rate dtype: float64 - name: judge_task_coverage dtype: float64 - name: judge_error_count dtype: int64 - name: overall_reliability dtype: float64 - name: overall_weighted_query_score dtype: float64 - name: overall_median_latency_ms dtype: float64 - name: overall_p95_latency_ms dtype: float64 - name: overall_total_tokens dtype: float64 - name: overall_cost_usd dtype: float64 - name: overall_tokens_per_pass dtype: float64 - name: overall_cost_per_pass dtype: float64 - name: consensus_subset_score dtype: float64 - name: hard_subset_score dtype: float64 - name: public_dev_score dtype: float64 - name: official_hidden_score dtype: float64 - name: clear_prompt_score dtype: float64 - name: ambiguous_prompt_score dtype: float64 - name: overall_delivery_outcome_counts struct: - name: fail dtype: int64 - name: partial dtype: int64 - name: pass dtype: int64 - name: overall_failure_mode_counts struct: - name: hallucinated_completion dtype: int64 - name: state_regression dtype: int64 - name: tool_misuse dtype: int64 - name: verification_skipped dtype: int64 - name: overall_pass_hat_k dtype: float64 - name: overall_ci_lower dtype: float64 - name: overall_ci_upper dtype: float64 - name: certified dtype: bool - name: environment_checksum dtype: string - name: environment dtype: string - name: tier_scores struct: - name: tier1 struct: - name: ci_lower dtype: float64 - name: ci_upper dtype: float64 - name: mean_behavior dtype: float64 - name: mean_completion dtype: float64 - name: mean_judge dtype: float64 - name: mean_reliability dtype: float64 - name: mean_task_score dtype: float64 - name: mean_trajectory dtype: float64 - name: scenario_scores struct: - name: coding_dev_assist struct: - name: mean_behavior dtype: float64 - name: mean_completion dtype: float64 - name: mean_judge dtype: float64 - name: mean_reliability dtype: float64 - name: mean_task_score dtype: float64 - name: mean_trajectory dtype: float64 - name: pass_hat_k_rate dtype: float64 - name: total_weight dtype: float64 - name: weighted_score dtype: float64 - name: task_results list: - name: artifact_type dtype: string - name: capabilities sequence: string - name: cost_per_pass dtype: float64 - name: delivery_outcome_counts struct: - name: fail dtype: int64 - name: partial dtype: int64 - name: pass dtype: int64 - name: failure_mode_counts struct: - name: hallucinated_completion dtype: int64 - name: state_regression dtype: int64 - name: tool_misuse dtype: int64 - name: verification_skipped dtype: int64 - name: family dtype: string - name: judge_error_count dtype: int64 - name: judge_pass_rate dtype: float64 - name: judged_runs dtype: int64 - name: mean_behavior_score dtype: float64 - name: mean_completion_score dtype: float64 - name: mean_cost_usd dtype: float64 - name: mean_judge_confidence dtype: float64 - name: mean_judge_score dtype: float64 - name: mean_run_score dtype: float64 - name: mean_task_score dtype: float64 - name: mean_total_tokens dtype: float64 - name: mean_trajectory_score dtype: float64 - name: median_duration_ms dtype: float64 - name: p95_duration_ms dtype: float64 - name: pass_at_1 dtype: bool - name: pass_hat_k dtype: bool - name: pass_rate dtype: float64 - name: pool dtype: string - name: prompt_variant dtype: string - name: query_difficulty dtype: string - name: query_weight dtype: float64 - name: reliability_score dtype: float64 - name: runs dtype: int64 - name: scenario dtype: string - name: subscenario dtype: string - name: subsets sequence: string - name: task_id dtype: string - name: tier dtype: string - name: tokens_per_pass dtype: float64 - name: variance_score dtype: float64 - name: worst_of_n dtype: float64 splits: - name: submissions num_bytes: 17811 num_examples: 8 download_size: 55857 dataset_size: 17811 configs: - config_name: default data_files: - split: submissions path: data/submissions-* --- # ClawBench Results Persistent queue state and benchmark submissions for the ClawBench HF Space.
提供机构:
ScoootScooob
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,基准测试数据集对于评估模型性能至关重要。ClawBench-Results数据集的构建源于对现有基准测试结果的系统性整合与规范化需求。该数据集通过自动化脚本从多个公开的基准测试平台,如Papers with Code和Hugging Face的排行榜,收集了涵盖文本分类、问答、文本生成等核心任务的模型评估结果。收集的原始数据经过清洗、去重和格式统一处理,确保了数据的一致性与可比性。最终,数据集以结构化的JSON格式组织,每条记录均包含模型名称、任务类型、评估指标得分及数据来源等关键元数据,为后续的模型性能分析提供了坚实的基础。
使用方法
研究人员与开发者可以借助ClawBench-Results数据集进行深入的模型性能评估与基准研究。典型的使用流程包括:首先,通过加载数据集的JSON文件,利用Python等编程语言进行解析,以提取特定任务或模型系列的评估结果。接着,可以运用统计分析或可视化工具,对模型在不同指标上的表现进行对比,识别性能优劣与瓶颈所在。例如,可以分析Transformer架构变体在阅读理解任务上的准确率分布,或探究多语言模型在跨语言迁移中的效果。数据集还可服务于元分析研究,如综合评估预训练数据规模对下游任务性能的影响,从而为模型设计与优化提供实证依据。
背景与挑战
背景概述
在人工智能与机器人技术融合发展的背景下,灵巧操作成为提升机器人自主性与适应性的核心议题。clawbench-results数据集应运而生,它由研究团队于近期构建,旨在系统评估机器人抓取与操作算法的性能。该数据集聚焦于解决机器人如何在复杂、非结构化环境中实现可靠、精准的物体操控这一根本问题,通过汇集多样化的任务执行结果,为算法比较与优化提供了实证基础,对推动机器人灵巧操作领域的标准化评测与技术进步具有显著影响力。
当前挑战
该数据集致力于应对机器人灵巧操作领域的关键挑战,即如何使算法在物体形状、材质及环境动态性高度变异的情况下保持鲁棒性与泛化能力。在构建过程中,研究者需克服数据采集的复杂性,确保任务场景的多样性与真实性,同时统一不同算法输出结果的格式与度量标准,以保障评估的公平性与可比性。这些挑战直接关联到算法在实际部署中的效能验证与迭代改进。
常用场景
经典使用场景
在人工智能与机器人学交叉领域,clawbench-results数据集为评估机械臂抓取与操作性能提供了标准化基准。该数据集通过记录多种抓取策略在模拟环境中的执行结果,包括成功率和稳定性指标,成为研究人员比较不同算法效能的经典工具。它常被用于验证强化学习、模仿学习等方法的泛化能力,特别是在非结构化场景下的适应性分析。
解决学术问题
该数据集有效解决了机器人抓取研究中缺乏统一评估框架的学术难题。通过提供多维度、可重复的实验数据,它帮助量化抓取策略的鲁棒性与效率,促进了抓取动力学建模、多模态感知融合等关键问题的探索。其意义在于推动了机器人操作从理论仿真向实际部署的过渡,为跨领域协作研究奠定了数据基础。
实际应用
在工业自动化与物流分拣等实际场景中,clawbench-results数据集指导了柔性抓取系统的优化设计。基于其数据训练的模型能够提升机械臂对不规则物体的识别与操控精度,降低生产线上的故障率。此外,该数据集还支持服务机器人家庭辅助、医疗康复设备等领域的抓取算法定制,增强了机器人在复杂环境中的实用价值。
数据集最近研究
最新研究方向
在代码生成与评估领域,clawbench-results数据集聚焦于大型语言模型在代码任务中的性能分析。当前研究热点围绕模型在复杂编程场景下的鲁棒性、泛化能力及错误模式展开,尤其关注代码生成中的安全漏洞与逻辑一致性。前沿工作结合自动化测试与形式化验证方法,探索模型在真实开发环境中的实用价值,推动代码智能评估向更严谨、可解释的方向发展,对提升软件开发效率与质量具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作