CASTER

Hugging Face2026-04-07 更新2026-04-08 收录

下载链接：

https://huggingface.co/datasets/kimd00/CASTER

下载链接

链接失效反馈

官方服务：

资源简介：

CASTER（电子竞技研究中的解说对齐与状态追踪）是一个多模态数据集，用于《星际争霸：母巢之战》中基于观察的解说生成。该数据集对齐了重放渲染的观察者视角视频片段、同步的观察者可见结构化状态以及经过质量控制的解说语句。本次发布包含239场比赛（205场训练，17场验证，17场测试）和28,734条语句级别的片段-状态-解说记录。数据集包含28,697个重放渲染的视频片段，少量解说记录发生在重放结束后因此没有对应的视频文件。数据集文件按比赛目录组织，包含clip/（视频片段）、context.json（核心标注文件）、viewport.csv（观察者视口轨迹）、state.csv（游戏状态数据）和metadata.json（比赛元数据）。数据集适用于剪辑到观察预测、剪辑+观察到解说生成、多模态游戏理解等研究任务，采用CC BY-NC 4.0非商业研究许可。

创建时间：

2026-04-02

原始信息汇总

CASTER 数据集概述

数据集基本信息

数据集名称：CASTER (Commentary Alignment and State Tracking for Esports Research)
主要语言：英语 (en)
许可证：CC BY-NC 4.0 (仅限非商业研究使用)
数据规模：10K < n < 100K
领域标签：电子竞技、星际争霸：母巢之战、多模态、视频-语言、解说生成

数据集内容与结构

核心内容：一个用于《星际争霸：母巢之战》中基于观察的解说生成的多模态数据集。它对齐了由录像渲染的观察者视角视频片段、同步的观察者可见结构化游戏状态以及经过质量控制的解说语句。
数据量：包含239场比赛（205场用于训练，17场用于验证，17场用于测试），共计28,734条语句级别的“片段-状态-解说”记录。
媒体文件：包含28,697个由录像渲染的视频片段。少量在录像结束后发生的解说记录没有对应的已发布片段文件。
未包含内容：原始的比赛转播视频/音频和录像源文件未重新分发。

数据文件与组织

数据集按比赛目录组织，主要文件包括：

clip/ 目录：包含与解说语句片段对齐的、由录像渲染的观察者视角视频片段（.mp4格式）。
context.json：核心的语句级别基准文件。每条记录包含 seg_index、clip_path、speech、speech_tag、time 和 events 字段。
viewport.csv：同步的观察者视口轨迹。
state.csv：同步的、按帧索引的录像状态，用于推导基于观察者视角的事件。
metadata.json：比赛级别的元数据和对齐信息。
splits/ 目录：包含比赛级别的划分清单文件 (train.jsonl, validation.jsonl, test.jsonl)。

元数据说明

玩家姓名被匿名化为 PLAYER_1 和 PLAYER_2。
game_info.map 存储发布中使用的标准化地图名称。
game_info.map_file 保留原始的原始地图文件名。
source.youtube_url 指向原始的公开YouTube来源以供溯源。
alignment 存储比赛级别的、录像衍生状态与解说时间之间的同步元数据。

预期用途

视频片段到游戏观察的预测
视频片段与游戏观察到解说的生成
多模态游戏理解
电子竞技解说辅助研究

参考文献与更多信息

关于基准定义、评估细节和数据集构建流程的更详细描述，请参阅配套代码库：https://github.com/kimd0/CASTER。
使用本数据集时，请引用其配套论文（待定）。

搜集汇总

数据集介绍

构建方式

在电子竞技研究领域，CASTER数据集的构建体现了多模态数据对齐的精密流程。该数据集以《星际争霸：母巢之战》为背景，通过同步回放渲染的观察者视角视频片段、观察者可见的结构化游戏状态以及经过质量控制的解说语句，实现了三者之间的精确对齐。构建过程中，从239场比赛中提取了28,734条语句级别的片段-状态-解说记录，并生成了28,697个回放渲染的视频片段，确保了数据在时序与内容上的一致性。少数解说记录因发生在回放结束后而未对应视频文件，这反映了真实广播场景的完整性。

特点

CASTER数据集的核心特点在于其多模态对齐的深度与广度。它不仅提供了观察者视角的视频片段，还同步了游戏状态数据与解说文本，形成了独特的三角对齐结构。数据集涵盖了丰富的游戏事件与解说表达，玩家姓名经过匿名化处理以保护隐私，同时保留了原始地图信息与YouTube来源链接以确保可追溯性。数据以比赛目录层级组织，而非扁平表格，这种结构便于研究者按比赛单元进行多文件关联分析，为电子竞技解说生成与游戏理解研究提供了立体化的数据基础。

使用方法

使用CASTER数据集时，研究者需遵循其层级化数据组织方式。核心监督文件context.json包含了片段路径、解说文本、时间戳及事件等关键字段，是进行剪辑到观察预测或剪辑加观察到解说生成等任务的主要输入。数据集已预先划分为训练、验证与测试集，对应splits目录下的JSONL清单文件。用户可依据比赛目录读取视频片段、视口轨迹、游戏状态及元数据，实现多模态信息的整合。需注意少数解说记录对应回放结束后的时段，可能缺少视频文件，这在设计实验时需予以考虑。

背景与挑战

背景概述

随着电子竞技产业的蓬勃发展，对游戏内容进行智能化分析与评论生成的需求日益增长。CASTER数据集由研究团队于近年创建，旨在为《星际争霸：母巢之战》这一经典即时战略游戏提供多模态数据支持。该数据集的核心研究问题聚焦于基于观察的评论生成，通过精确对齐游戏回放视频片段、同步的结构化游戏状态以及经过质量控制的评论语句，为多模态游戏理解与自然语言生成任务奠定基础。其构建工作体现了计算机视觉、自然语言处理与游戏人工智能领域的交叉融合，对推动电子竞技分析自动化、增强观赛体验具有重要的学术与应用价值。

当前挑战

在电子竞技领域，实现高质量的自动评论生成面临多重挑战。首要挑战在于如何精准建模游戏动态与评论语言之间的复杂对应关系，这要求系统不仅能识别视频中的视觉事件，还需理解游戏状态的高层语义。数据构建过程中的挑战同样显著，包括从原始广播流中精确同步多模态信号、处理游戏回放与评论时序的对齐问题，以及确保评论语句的质量与相关性。此外，游戏状态的抽象表示、玩家匿名化处理，以及在非商业研究许可下整合来源各异的原始材料，均对数据集的构建提出了严格的技术与合规性要求。

常用场景

经典使用场景

在电子竞技研究领域，CASTER数据集为基于观察的评论生成提供了关键支持。其经典使用场景集中于将《星际争霸：母巢之战》的观察视角视频片段、同步的结构化游戏状态与人工标注的评论语句进行对齐，从而构建多模态学习框架。研究者可利用该数据集训练模型，从游戏画面和状态信息中自动生成连贯且情境相关的解说评论，推动智能解说系统的开发。

衍生相关工作

围绕CASTER数据集，已衍生出一系列经典研究工作。这些工作主要聚焦于多模态对齐算法、时序状态预测模型以及端到端的评论生成系统。部分研究进一步探索了游戏事件检测与评论语言的细粒度关联，或在数据集基础上扩展了新的评估指标与任务设定，为电子竞技分析乃至通用视频理解领域提供了可借鉴的方法论。

数据集最近研究