CourtSI

Name: CourtSI
Creator: 复旦大学; 上海人工智能实验室; 上海交通大学; 华东理工大学; 东南大学; 浙江大学; 北京航空航天大学; 香港科技大学; 华东师范大学
Published: 2026-03-11 00:50:32
License: 暂无描述

arXiv2026-03-11 更新2026-03-12 收录

下载链接：

https://visionary-laboratory.github.io/CourtSI

下载链接

链接失效反馈

官方服务：

资源简介：

CourtSI是由上海人工智能实验室等机构联合构建的首个面向体育场景的大规模空间智能数据集，聚焦羽毛球、网球和乒乓球等代表性网类运动。该数据集包含超过100万条问答对，涵盖空间计数、距离测量、定位和关系推理四大类任务，数据来源于广播视角的专业比赛视频并通过半自动三维重建引擎生成。通过严格的质量控制和多视角验证，重建精度达到厘米级，为视觉语言模型提供了人类动态运动与物体交互的细粒度研究平台。该数据集旨在推动空间智能在体育解说、运动员行为分析等领域的应用，解决现有基准在动态场景中空间推理能力不足的问题。

CourtSI is the first large-scale spatial intelligence dataset for sports scenarios, jointly developed by Shanghai AI Laboratory and other institutions, focusing on representative racket sports such as badminton, tennis and table tennis. It contains over 1 million question-answer pairs, covering four major task categories: spatial counting, distance measurement, localization and relational reasoning. The data is sourced from professional competition videos captured from broadcast perspectives and generated via a semi-automatic 3D reconstruction engine. Through strict quality control and multi-view validation, the reconstruction accuracy reaches centimeter-level, providing a fine-grained research platform for visual-language models to investigate human dynamic movements and object interactions. This dataset aims to promote the application of spatial intelligence in fields such as sports commentary and athlete behavior analysis, and address the insufficient spatial reasoning capability of existing benchmarks in dynamic scenarios.

提供机构：

复旦大学; 上海人工智能实验室; 上海交通大学; 华东理工大学; 东南大学; 浙江大学; 北京航空航天大学; 香港科技大学; 华东师范大学

创建时间：

2026-03-11

搜集汇总

数据集介绍

构建方式

在体育视觉语言模型空间智能研究的背景下，CourtSI数据集的构建依托于一种半自动化的数据引擎。该引擎充分利用了羽毛球、网球和乒乓球等网类运动场地具有标准化几何布局的特性，以场地角点作为度量锚点，通过透视n点算法优化相机内外参数，从而建立统一的世界坐标系。在此基础上，结合PromptHMR方法恢复球员的三维人体网格，并辅以人工标注的球体位置及高度信息，实现了厘米级精度的三维场景重建。最终，基于重构的三维状态，通过预设的问答模板自动生成了超过一百万对涵盖空间计数、距离测量、定位和关系推理四大类别的问答对，确保了数据的大规模与高质量。

特点

CourtSI数据集的核心特点在于其专注于动态、高强度人体运动场景下的细粒度空间推理。与以往侧重于静态场景的数据集不同，该数据集以运动员和球体为核心对象，引入了度量感知和以人为中心的空间问题。其问答体系不仅覆盖了从相机到物体的绝对距离计算，还深入到球员身体部位级别的定位与关系判断，例如测量球员骨盆到球的距离或判断球员间的左右方位。此外，数据集严格区分了基于相机视角的“左右”与基于球员自身解剖结构的“左右”，体现了对真实体育场景中空间关系复杂性的深刻把握。

使用方法

CourtSI数据集主要用于评估和提升视觉语言模型在体育场景中的空间智能。研究者可将其中的CourtSI-Bench（包含3,686对经过人工验证的高质量问答对）作为标准测试集，对各类VLM进行系统性评估，揭示模型在动态空间推理任务上的性能差距。同时，大规模的训练集CourtSI可用于对模型进行监督微调，已有实验表明，基于其微调的Qwen3-VL-8B模型在基准测试上的准确率提升了23.5个百分点，并在跨运动泛化（如匹克球）和空间感知的体育解说生成等下游任务中展现出良好的迁移能力，为推进VLM的实用化空间理解提供了有效途径。

背景与挑战

背景概述

随着视觉语言模型在语义理解和二维视觉推理领域取得显著进展，研究者开始探索其在三维空间感知与推理方面的能力，空间智能由此成为人工智能通用化进程中的关键研究方向。在此背景下，CourtSI数据集应运而生，由复旦大学、上海人工智能实验室等机构的研究团队于2026年共同创建。该数据集聚焦于体育场景中的空间智能评估，旨在解决动态环境下以人为中心的空间推理问题，涵盖羽毛球、网球和乒乓球等代表性隔网运动。通过构建包含超过一百万对问答的大规模数据集，CourtSI为视觉语言模型在复杂运动场景中的空间计数、距离测量、定位及关系推理等核心能力提供了系统化的评估基准，推动了三维空间理解研究向高动态、非刚性对象领域的拓展。

当前挑战

CourtSI数据集致力于解决体育场景中空间智能评估的领域挑战，其核心在于要求模型在动态、高强度的运动环境下进行精确的三维空间推理，这超越了现有静态物体数据集的覆盖范围。具体挑战包括：在领域问题层面，模型需克服二维图像到三维空间的投影歧义，准确感知运动员与球体的实时位置关系，并在非刚性人体运动约束下完成细粒度的空间关系判断；在构建过程中，研究团队面临从单目广播视频中恢复度量级三维场景的难题，为此开发了半自动数据引擎，利用球场几何结构作为度量锚点，通过人工辅助的相机参数标定、球体轨迹建模及人体网格对齐等方法，实现了厘米级精度的场景重建，确保了数据生成的可靠性与可扩展性。

常用场景

经典使用场景

在视觉语言模型空间智能研究领域，CourtSI数据集为评估和提升模型在动态体育场景中的三维空间推理能力提供了标准化测试平台。该数据集通过半自动数据引擎重建羽毛球、网球和乒乓球等网类运动的比赛场景，生成超过百万个涵盖空间计数、距离测量、定位和关系推理的问答对。研究者利用CourtSI-Bench基准对25个前沿视觉语言模型进行系统性评估，揭示模型在度量距离计算和人体中心空间关系理解方面的性能瓶颈，为模型优化提供了明确方向。

实际应用

CourtSI数据集在体育分析、智能解说和训练辅助等领域展现出广泛的应用潜力。基于该数据集训练的视觉语言模型能够生成融合精确空间关系的体育解说，提升观赛体验的沉浸感和信息密度。在专业训练中，模型可辅助教练进行运动员位置分析和战术评估，通过量化球员与球体的空间关系优化训练策略。此外，该数据集支持模型跨运动泛化能力验证，为开发适应不同体育项目的通用空间智能系统奠定了基础，有望推动体育产业向数据驱动和智能化方向转型。

衍生相关工作

CourtSI数据集的发布催生了一系列围绕体育空间智能的衍生研究。基于其构建的CourtSI-Ext基准将评估范围扩展至匹克球等未见运动，探索模型跨领域泛化能力。在方法层面，研究团队通过监督微调显著提升了Qwen3-VL-8B等模型在距离测量任务上的性能，验证了数据集的训练有效性。同时，该数据集启发了对视觉语言模型视角模糊性处理、人体姿态感知与空间推理联合优化等方向的深入探索，为后续如SpaceR、VST等空间智能模型的改进提供了重要的数据支撑和评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集