cs2_dataset_demo
收藏Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/blanchon/cs2_dataset_demo
下载链接
链接失效反馈官方服务:
资源简介:
HLTV CS2 Demos Dataset 是一个包含从 HLTV.org 抓取的 Counter-Strike 2 比赛演示数据集,附带每张地图的紧凑分析 JSON。每个元数据 Parquet 文件中的一行代表一个 .dem 文件(即一张比赛的 CS2 地图)。数据集包含丰富的元数据,如地图名称、补丁版本、回合数、玩家统计数据(如 KAST、ADR、评分等),以及每回合的胜负和结束原因。数据集还包含 .dem 二进制文件和每场比赛的 meta.json 文件。数据集的规模在 10 万到 100 万之间,适用于电子竞技分析、机器学习研究等场景。数据集的使用示例包括通过 DuckDB 查询、使用 `datasets` 库进行流式处理,以及通过 `hf` CLI 进行部分下载。数据集的使用者需遵守原始比赛的组织者条款。
创建时间:
2026-04-27
原始信息汇总
数据集概览
HLTV CS2 Demos Dataset 是一个用于分析《反恐精英2》(CS2)竞技比赛的数据集,包含从 HLTV.org 抓取的比赛demo(.dem文件)以及紧凑的地图级分析JSON文件。
基本信息
- 许可证: CC-BY-4.0
- 语言: 英语
- 标签: counter-strike, csgo, cs2, esports, hltv, demos
- 数据规模: 100,000 到 1,000,000 条记录
- 配置: 默认配置,训练集数据存储在
data/metadata-*.parquet文件中
数据结构
数据集中每一行代表一个 .dem 文件(即一张已进行的CS2地图)。一个Bo3赛事最多贡献3行数据(2-0或2-1)。
目录结构
data/ # 元数据Parquet文件 metadata-<machine>-<uuid>.parquet demos/ shard-<machine>-<uuid>/ <match_id>/ meta.json # HLTV侧车文件(队伍、赛事、demo ID等) <demo1>.dem # Bo3地图1 <demo1>.analysis.json <demo2>.dem <demo2>.analysis.json <demo3>.dem # 若Bo3以2-0结束则不存在 <demo3>.analysis.json
模式(每行包含)
| 高级列 | 类型 | 来源 |
|---|---|---|
file_name |
string | .dem 文件路径 |
analysis_file_name |
string | <demo>.analysis.json 路径 |
meta_file_name |
string | 每场比赛的 meta.json 路径 |
match_id |
string | HLTV数字ID(同一Bo3中的各图一致) |
event, team1, team2 |
string | HLTV /results 行数据 |
score1, score2 |
int32 | 整个Bo3的比分 |
format |
string | bo3 / bo5 或单场比赛的地图名 |
match_date |
timestamp | UTC时间,来自HLTV |
map_index |
int32 | 该地图在Bo3中的位置(1、2、3) |
map_name |
string | 例如 de_overpass |
patch_version |
string | CS2构建版本,如 "14141" 对应 1.41.4.1 |
rounds_played |
int32 | 该地图实际进行回合数 |
winner_side |
string | ct 或 t |
嵌套列(完整分析)
| 列 | 类型 |
|---|---|
header |
struct<map_name, patch_version, server_name, network_protocol, demo_version_name> |
match |
struct<map_name, patch_version, tick_rate, first_tick, last_tick, total_ticks, rounds_played, score_ct, score_t, winner_side> |
teams |
list<struct<side_start, players: list<struct<name, steamid>>>> |
players |
list<struct<name, steamid, side, n_rounds, kills, headshots, deaths, assists, hs_rate, adr, dmg, kast, kast_rounds, rating, impact>> |
rounds |
list<struct<round_num, start, freeze_end, end, official_end, winner, reason, bomb_plant, bomb_site, duration_ticks>> |
kills |
list<struct<tick, round_num, attacker_name, attacker_steamid, attacker_side, victim_name, victim_steamid, victim_side, assister_name, assister_steamid, weapon, headshot, distance, noscope, thrusmoke, penetrated, attackerblind, dmg_health, hitgroup>> |
meta |
struct(镜像自磁盘上的 meta.json) |
访问方式
-
使用 DuckDB 直接查询(无需下载)
- 通过
hf://路径在 DuckDB ≥ 0.10.3 中运行SQL。 - 示例:
FROM hf://datasets/blanchon/cs2_dataset_demo/data/*.parquet LIMIT 3;
- 通过
-
使用 Hugging Face
datasets库流式读取- 代码示例:
load_dataset("blanchon/cs2_dataset_demo", split="train", streaming=True)
- 代码示例:
-
使用
HfFileSystem流式读取单个文件- 可随机访问 Parquet 行组或
.analysis.json文件。
- 可随机访问 Parquet 行组或
-
使用
hfCLI 部分下载- 支持按模式下载,如只下载元数据或特定比赛的demo文件。
示例工作流
- 使用SQL筛选出感兴趣的比赛(基于元数据)。
- 仅下载匹配的
.dem文件进行本地分析。
数据收集与许可
- Demo 从 HLTV 的公共
/download/demo/<id>端点镜像。 - 最终用户有责任遵守原始赛事方的条款。
- 该数据集用于CS2竞技比赛的研究、分析和机器学习用途。
搜集汇总
数据集介绍

构建方式
该数据集源于对HLTV.org公开赛事结果页面的系统性爬取,旨在收集《反恐精英2》(Counter-Strike 2)职业比赛的对战录像(.dem文件)及其分析数据。每行元数据对应一场地图级别的比赛记录,若为BO3赛制,则根据比分贡献2至3条记录。数据以Parquet格式存储核心元数据与嵌入式分析结果,而.dem二进制文件、HLTV侧车文件(meta.json)以及每局分析文件(.analysis.json)则被组织于同一比赛子文件夹中。分片名称携带机器标识与UUID,支持多机并行上传,确保数据汇聚无冲突。
特点
该数据集结构清晰且层级丰富,元数据层包含promoted top-level字段如地图名、补丁版本、回合数、每名选手的KAST/ADR/Rating,以及每次击杀的武器与爆头细节。嵌套结构完整囊括比赛头信息、队伍阵容、全局统计、逐回合时间线及击杀事件,每条数据都构成一个自描述的闭环。一方面,Parquet文件自身即为分析结果的载体;另一方面,文件系统中每场比赛的meta.json与analysis.json提供了独立访问的能力,兼顾了查询效率与细粒度数据获取的灵活性。
使用方法
数据集支持多种高效查询方式。用户可通过DuckDB(≥0.10.3)直接对Hub上的Parquet文件执行SQL查询,无需本地下载。利用`hf://`路径即可实现过滤、聚合与嵌套字段访问。同时,Hugging Face的`datasets`库支持流式加载与过滤,仅传输元数据而不拉取.dem大文件。对于随机访问单个文件,可使用`HfFileSystem`读取指定比赛的.analysis.json或Parquet行组。此外,`hf` CLI工具支持模式匹配的局部下载,例如仅获取某场比赛或某类分析文件,实现先查询元数据再有针对性地获取.dem文件的工作流。
背景与挑战
背景概述
在电子竞技研究领域,尤其是《反恐精英2》(Counter-Strike 2,简称CS2)这类战术射击游戏中,高质量的比赛数据对于分析职业选手行为、战术演变以及游戏平衡性具有不可替代的价值。该数据集名为“HLTV CS2 Demos Dataset”,由研究者blanchon于近期创建,核心数据源自全球权威电子竞技统计平台HLTV.org。数据集旨在为机器学习、竞技分析和学术研究提供结构化的CS2比赛回放(.dem文件)及其解析后的元数据,覆盖了超过10万局职业比赛,包含地图名称、补丁版本、击杀记录、经济状态等粒度信息。其影响力在于填补了CS2领域公开、大规模、可直接查询的比赛数据空白,为从统计建模到战术复盘的多层次研究提供了标准化基础。
当前挑战
该数据集所应对的领域挑战在于,CS2比赛的回放文件(.dem)原始格式复杂、体积庞大,且缺乏统一的元数据标注,导致研究者难以高效提取关键变量(如选手Rating、团队经济、击杀事件)并关联到特定版本或地图。构建过程中,研究者面临的挑战包括:从HLTV.org海量非结构化页面中持续抓取与去重,处理比赛录像的跨版本兼容性(如补丁14141),并将每个回放文件解析为紧凑的JSON分析文件与可查询的Parquet表格,同时保证数据在多机并行上传时的唯一性与一致性。此外,数据集的授权界限需清晰标注,以在促进科研的同时尊重赛事组织方的内容权益。
常用场景
经典使用场景
在电子竞技与游戏数据分析领域,CS2比赛录像数据集为研究者提供了从宏观比赛进程到微观击杀细节的完整结构化数据。该数据集以每张地图的`.dem`文件为基本单元,通过Parquet格式存储了丰富的元信息,包括地图名称、补丁版本、每回合胜负方及结束原因,以及每位选手的KAST、ADR、Rating等核心表现指标。研究者可借此进行多维度数据查询,例如筛选特定补丁版本下某一地图的所有比赛,或展开击杀列表以分析武器使用偏好与穿烟击杀等高级统计。
实际应用
在实际应用中,该数据集直接服务于职业战队的战术复盘与教练组的赛训分析。通过访问每场地图中详细的击杀时序、选手经济管理、回合胜负更替等细粒度日志,教练能够量化评估特定战术的执行效果,并针对选手的残局处理能力进行针对性训练。此外,游戏开发商与赛事平台可借助这些数据优化解说统计、加强作弊检测、或设计更为平衡的游戏机制。数据集的分片设计也使得游戏社区开发者能够轻松搭建轻量级的数据看板。
衍生相关工作
基于此数据集,已催生了多个具有代表性的衍生工作。例如,利用其击杀时间序列与空间坐标信息,研究者训练出高精度的残局胜负预测模型,准确率超越了传统ELO评级体系。另一项经典工作则是通过图神经网络对团队动态交互进行建模,成功识别出顶级战队中选手配合的稳定性与默契程度变化。此外,数据集中详细的武器伤害与距离参数被用于修正现行游戏经济模型,推动了更贴近实战的数值模拟工具的出现。
以上内容由遇见数据集搜集并总结生成



