BioMotion Arena

arXiv2025-08-08 更新2025-08-12 收录

下载链接：

https://zijianchen98.github.io/BioMotion-Arena

下载链接

链接失效反馈

官方服务：

资源简介：

BioMotion Arena 是一个新颖的框架，用于通过视觉动画评估大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 的能力。该框架利用生物运动的视觉感知来放大模型之间的性能差异。特别是，我们采用成对比较评估，并收集了超过 45,000 票，用于对 53 个主流 LLM 和 MLLM 进行评估，涵盖了 90 个生物运动变体。数据分析表明，众包人类投票与专家评分者的一致性良好，证明了我们的 BioMotion Arena 在提供区分性反馈方面的优越性。

BioMotion Arena is a novel framework for evaluating the capabilities of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) via visual animations. This framework leverages visual perception of biological motion to amplify performance discrepancies between models. Specifically, we employ pairwise comparison evaluations and collected over 45,000 votes to assess 53 mainstream LLMs and MLLMs across 90 biological motion variants. Data analysis shows that crowdsourced human votes exhibit strong consistency with expert raters, which verifies the superiority of our BioMotion Arena in providing discriminative feedback.

提供机构：

上海交通大学,上海 200240,中国上海人工智能实验室,上海 200232,中国澳门理工学院,澳门 999078,中国

创建时间：

2025-08-08

原始信息汇总

BioMotion Arena 数据集概述

数据集简介

名称: BioMotion Arena
类型: 生物运动动画评估框架
开发者: Zijian Chen等（上海交通大学、上海AI实验室、澳门理工大学）
对应论文: Can Large Models Fool the Eye? A New Turing Test for Biological Animation

核心特点

首个基于生物运动的视觉偏好评估框架
细粒度控制维度:
- 10种典型人类动作（行走、跑步、挥手等）
- 性别、体重、情绪、方向等属性控制
评估规模:
- 收集45,000+人类投票
- 评估53个主流LLM和MLLM模型
- 包含90种生物运动变体

关键发现

模型表现差异:
- LLM中DeepSeek-R1-20250528表现最佳（62%胜率）
- MLLM中Gemini 2.5 Pro领先
- 开源模型与专有模型存在显著差距
生成质量:
- 90%模型无法生成基本人形点光源组
- 难以产生平滑且生物学合理的运动

评估方法

创新性评估维度:
- 基于点光源成像技术放大模型差异
- 无ground-truth限制的灵活框架
有效性验证:
- 众包投票与专家评分高度一致
- 提供直观、可感知的性能差异反馈

数据展示

典型动作示例:
- 行走、跳跃、坐立等基础动作
- 含情绪/属性组合（如"快乐-瘦-女性-行走"）
模型对比:
- 包含GPT-5、GPT-4o、Claude-4等主流模型生成结果
- 提供Elo评分和胜率对比数据

应用价值

挑战性基准:
- 可视化模型性能差异
- 严格测试模型对生物运动的理解能力
研究意义:
- 揭示当前模型在运动生成方面的根本缺陷
- 为多模态模型评估提供新范式

搜集汇总

数据集介绍

构建方式

BioMotion Arena数据集通过视觉动画评估大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的性能。其构建方法借鉴了生物运动的视觉感知特性，利用点光源成像技术放大模型间的性能差异。具体而言，该数据集采用成对比较评估方法，收集了53种主流LLMs和MLLMs在90种生物运动变体上的超过45,000次投票。数据来源包括众包用户和专业评分者，确保数据的多样性和可靠性。

使用方法

使用BioMotion Arena数据集时，用户可以通过视觉动画直观比较不同模型的性能。数据集提供了详细的代码生成模板和参考图像，用户可根据自然语言提示生成生物运动动画，并通过投票系统选择更优的模型输出。数据集支持多种动作和属性组合，适用于评估模型在复杂场景下的表现。此外，数据集还提供了动态更新的排行榜和详细的统计分析，帮助用户快速了解模型性能差异。

背景与挑战

背景概述

BioMotion Arena是由上海交通大学和上海人工智能实验室的研究团队于2025年提出的创新性评估框架，旨在通过生物运动动画来评估大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的性能。该数据集的核心研究问题在于解决现有评估方法无法直观展示模型性能差异的局限性，通过利用人类视觉对生物运动的固有感知能力，BioMotion Arena能够提供更为直观和可感知的模型性能反馈。该数据集的创建标志着在模型评估领域的一次重要突破，为相关研究提供了新的视角和工具。

当前挑战

BioMotion Arena面临的挑战主要包括两个方面：在领域问题方面，该数据集旨在解决的挑战是如何通过视觉动画直观地展示大型模型在生物运动生成任务中的性能差异，这要求模型不仅能够理解复杂的生物运动模式，还需要生成平滑且生物学上合理的动画；在构建过程中，研究团队需要克服的挑战包括设计有效的点光源显示方法以放大模型间的性能差异，以及收集和处理大量的人类偏好数据以确保评估的客观性和可靠性。此外，如何确保生成的动画在视觉上连贯且符合生物学规律，也是构建过程中的一大挑战。

常用场景

经典使用场景

BioMotion Arena数据集在评估大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的生物运动生成能力方面具有经典应用。通过点光源动画模拟人类行走、跑步等典型动作，该数据集为研究者提供了一个直观且高效的平台，用于比较不同模型在生物运动生成任务中的表现。其独特的视觉偏好评估机制，使得模型间的性能差异能够被清晰感知，从而为模型优化提供了明确方向。

解决学术问题

BioMotion Arena解决了当前大型模型评估中存在的两个关键学术问题：一是传统基于静态数据集或文本聊天式评估的局限性，无法直观反映模型性能差异；二是缺乏对生物运动生成能力的系统性评估。该数据集通过引入视觉动画和人类偏好投票机制，为研究者提供了一个更加直观、无偏的评估框架，填补了生物运动生成领域的研究空白。

实际应用

在实际应用中，BioMotion Arena可用于多个领域。例如，在虚拟现实和游戏开发中，该数据集可以帮助优化角色动画的自然性和流畅性；在机器人技术中，可用于评估和提升机器人运动规划的拟人化程度；此外，在心理学和认知科学领域，该数据集还可用于研究人类对生物运动的感知机制。

数据集最近研究