cs2_dataset_render_part2

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/blanchon/cs2_dataset_render_part2

下载链接

链接失效反馈

官方服务：

资源简介：

OpenCS2 — POV Renders数据集是一个包含Counter-Strike 2游戏玩家视角（POV）训练片段的数据集。每个数据片段不超过1分钟，包含10个玩家的同步视角数据。数据集提供视频、音频、输入数据和世界状态等多种数据。数据集分为四种配置：`previews`（默认）、`chunks`、`matches`和`rounds`，分别适用于浏览和快速检查、训练、筛选和索引等用途。数据集以Parquet格式存储，支持通过Hugging Face的`datasets`库流式加载或通过DuckDB查询，适用于视频分类、强化学习等任务。数据集基于CC-BY-4.0许可发布。

OpenCS2 — POV Renders dataset is a collection of player perspective (POV) training clips from Counter-Strike 2. Each clip is no longer than 1 minute and includes synchronized perspective data from 10 players. The dataset provides the following: - **Video**: 1280×720 resolution, 32 fps, near-lossless H.264 encoding. - **Audio**: Stereo for each player, mixed according to their position and orientation. - **Input data**: Key presses, mouse movements, view angles, fire/jump/use actions, weapon switches, etc., per frame. - **World state**: Position, velocity, view angles, health, armor, weapons, alive status, etc., for all 10 players per frame. The dataset is divided into four configurations: 1. `previews` (default): Low-resolution preview videos and input/world state data at 1Hz, suitable for browsing and quick inspection. 2. `chunks`: Full video and audio files with embedded input and world state data, suitable for training. 3. `matches`: Metadata for each match, including team and tournament information, suitable for filtering and indexing. 4. `rounds`: Metadata for each round, including frame boundaries, suitable for filtering and indexing. The dataset is stored in Parquet format, supports streaming loading via Hugging Faces `datasets` library or querying via DuckDB, and is suitable for tasks such as video classification and reinforcement learning. The dataset is released under the CC-BY-4.0 license.

创建时间：

2026-05-06

原始信息汇总

OpenCS2 — POV Renders 数据集概述

基本信息

数据集名称: OpenCS2 — POV Renders
许可证: CC-BY-4.0
任务类别: 视频分类 (video-classification), 其他 (other)
语言: 英语 (en)
标签: counter-strike, cs2, esports, hltv, video, audio, parquet, reinforcement-learning
数据集主页: OpenCS2 Viewer

数据集描述

该数据集包含从 blanchon/cs2_dataset_demo 渲染的、基于时间戳对齐的《反恐精英2》（CS2）第一人称视角训练片段。每行数据代表一位玩家最多1分钟的视角；同一回合中的10个玩家视角共享相同的时钟刻度。

每个数据块包含

视频 — 1280×720 @ 32 fps，近无损 H.264 编码
音频 — 每位玩家的立体声，根据该玩家的位置和方向混合
输入 — 每帧记录：按键、鼠标增量、视角角度、开火/跳跃/使用、武器切换
世界状态 — 每帧记录全部10名玩家：位置、速度、视角、血量、护甲、武器、存活标志

数据集配置

数据集提供4个配置，previews 为默认配置，chunks 为训练用完整数据：

配置	内容	用途
`previews`（默认）	低分辨率 `preview.mp4` + 1Hz 输入/世界侧车文件	浏览、快速检查
`chunks`	仅路径的 `video.mp4` + `audio.wav`，内嵌输入和世界数据	训练
`matches`	每行一个 `(match_id, map_name)`，附带队伍/赛事元数据	筛选 / 索引
`rounds`	每行一个 `(match_id, map_name, round)`，附带时间戳边界	筛选 / 索引

数据结构

仓库布局

data/ match_id=<id>/map_name=<map>/player=<0-9>/ chunks-preview-<machine>-<uuid>.parquet chunks-full-<machine>-<uuid>.parquet chunks/chunk_<n>/{video.mp4, audio.wav} previews/chunk_<n>/{preview.mp4, inputs.preview.json, world.preview.jsonl} index/ manifest-<machine>-<uuid>.parquet # 每行对应一个 (match, map) rounds-<machine>-<uuid>.parquet # 每行对应一个 (match, map, round)

行语义

player — 规范化的0-9玩家索引，在同一比赛中保持稳定
spec_slot — 临时的CS2观战插槽编号，仅用于调试
录制从可玩的回合开始（freeze_end_tick）开始；死亡视角保留到回合结束的短尾；幸存者视角保留一段短后回合尾段
inputs 和 worlds 在 chunks parquet 中以结构体数组形式存储
可用于 chunks 的筛选列：match_id, map_name, player, round, chunk_index, primary_weapon, player_side, survived_chunk, damage_taken, shots_fired, distance_traveled, weapons_used

数据集创建流程

Demo 源 — 从 blanchon/cs2_dataset_demo 获取
渲染 — 使用无头 CS2 + 自定义插件回放每个 demo，逐帧捕获每位玩家的第一人称视角，并将原始帧流式传输至 NVENC 编码器
Parquet 生成 — 将片段（≤1分钟）按 (round, chunk_index) 排序写入，配置 row_group_size=1, write_page_index=True 和 use_content_defined_chunking=True 以优化后续上传
上传 — 每个渲染工作线程写入自己的 <machine>-<uuid> 分片

引用信息

bibtex @misc{blanchon2026opencs2, author = {Julien Blanchon}, title = {OpenCS2 Dataset}, year = {2026}, publisher = {Hugging Face}, howpublished = {url{https://github.com/julien-blanchon/opencs2-dataset}} }

搜集汇总

数据集介绍

构建方式

该数据集源自HLTV的Counter-Strike 2职业比赛demo文件，经由开源工具链opencs2-dataset中的录制器进行自动化处理。构建流程起始于从blanchon/cs2_dataset_demo仓库拉取原始demo，随后在无头渲染环境中，由定制插件逐tick回放并捕获每一名玩家的第一人称视角画面。原始视频帧通过NVENC编码器压缩为接近无损的H.264格式，同时同步记录每tick的玩家操作输入与完整世界状态。最终，数据被切分为不超过一分钟的片段，以Parquet格式存储，并采用高效的Hive分区布局进行组织，确保并行上传和数据访问的高效性。

特点

本数据集最突出的特点在于其严格的tick对齐机制，同一回合内十名玩家的视频、音频、操作输入及世界状态均共享同一时间轴，为多视角联合分析提供了坚实基础。视频部分提供1280×720分辨率、32帧每秒的近无损编码；音频则根据玩家位置与朝向进行立体声混音。数据覆盖了从职业比赛完整回放中提取的丰富元信息，包括武器使用、伤害统计、移动距离等数十个过滤字段。此外，数据集通过多个配置（previews、chunks、matches、rounds）满足从快速浏览到深度学习训练的不同需求层级。

使用方法

用户可通过Hugging Face datasets库以流式方式高效加载数据，支持在加载时指定所需列和过滤条件，实现列裁剪与谓词下推。例如，加载chunks配置时可仅选取视频、音频、输入和世界状态字段，并依据玩家编号进行过滤。数据集还支持通过DuckDB对Parquet索引文件进行直接SQL查询，便于快速筛选特定赛事、地图或回合。通过Hugging Face CLI工具，用户可利用Hive分区路径实现精准的部分下载，仅获取特定比赛、地图和玩家的完整数据，极大节省存储与带宽资源。

背景与挑战

背景概述

OpenCS2 — POV Renders数据集由Julien Blanchon于2026年创建，依托HuggingFace平台发布，旨在为电子竞技领域提供高质量的、基于Counter-Strike 2（CS2）游戏的视觉与行为数据。该数据集通过渲染HLTV（一个专注于电子竞技的网站）上的比赛回放，生成了包含视频、音频、玩家输入和世界状态的多模态训练素材。其核心研究问题聚焦于利用细粒度的第一人称视角数据，推动游戏智能体（如强化学习模型）的训练与评估，以及对复杂竞技环境中人类行为的模拟。该数据集通过提供时间戳对齐的十人视角样本，为研究多智能体协同、决策分析及环境理解等课题奠定了坚实基础，对电子竞技数据科学和人工智能研究领域产生了重要影响。

当前挑战

该数据集所解决的领域问题在于，现有游戏数据集往往缺乏足够的精细度与多模态一致性，难以支撑对电子竞技中复杂战术与即时决策的建模。OpenCS2通过提供1280×720分辨率、32帧每秒的视频与每帧对应的玩家输入和世界状态数据，克服了数据稀疏与时间对齐难题。构建过程中，核心挑战包括：从高时间精度的游戏回放中同步捕获十个玩家视角，确保每个时间戳下的视觉、听觉与控制信号完全对齐；开发无头CS2客户端及其自定义插件，实现稳定、可重复的录制流程，并应对游戏内复杂事件（如玩家死亡、回合结束）导致的数据截断；以及设计高效的数据分块与索引机制（如Hive分区），在数百万条样本中支持快速筛选与检索，同时利用Xet技术优化大规模文件的增量更新与存储效率。

常用场景

经典使用场景

在电子竞技与游戏人工智能研究领域中，cs2_dataset_render_part2作为OpenCS2数据集的核心渲染模块，为多智能体强化学习和模仿学习提供了高保真的第一人称视频训练素材。该数据集通过精准对齐的时间戳，将同一回合内十名玩家的视角、操作输入和世界状态完美同步，使得研究者能够以32帧每秒的流畅度、1280×720的分辨率获取持续一分钟以内的对战片段。基于这些高度结构化的时序数据，学者们可以构建能够理解复杂战术决策的智能体，复现人类选手的微观操作与宏观策略，从而在虚拟环境中培养出具备高水平对抗能力的AI玩家。

实际应用

在实际应用层面，该数据集为电子竞技训练辅助系统和游戏内容分析平台提供了关键支撑。教练和分析师可以借助数据集中丰富的第一人称视角素材，精准回放并剖析选手在不同战术情境下的操作细节与反应模式，从而制定更具针对性的训练方案。此外，流媒体平台和赛事转播方能够利用这些多视角同步数据开发智能观战功能，例如自动聚焦精彩瞬间、生成战术复盘动画等。该数据集还赋能了反外挂系统的研发，通过训练异常行为检测模型来识别与人类操作模式不符的自动化脚本，维护游戏竞技生态的公平性。

衍生相关工作

该数据集衍生了一系列极具影响力的研究工作，在计算博弈论与人机交互领域产生了深远影响。其中最具代表性的是基于该数据集的模仿学习框架，研究者通过解耦每位玩家的操作流与对应的世界状态，成功训练出能够执行复杂多步骤战术动作的智能体模型。这些工作进一步催生了关于团队协作行为的可解释性分析，利用注意力机制和因果推断方法揭示获胜回合中的关键决策节点。同时，部分学者还基于该数据集的独特结构开发了高效的数据压缩与流式处理技术，显著降低了大规模视频数据集的存储与传输成本，为大范围推广类似基准数据集提供了工程范本。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集