blanchon/cs2_dataset_demo
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/blanchon/cs2_dataset_demo
下载链接
链接失效反馈官方服务:
资源简介:
HLTV CS2演示数据集是一个包含从HLTV.org抓取的Counter-Strike 2比赛演示文件的数据集,以及每张地图的紧凑分析JSON。数据集中的每一行元数据(Parquet格式)对应一个.dem文件(即一张已玩的CS2地图)。元数据包含常见的过滤字段,如地图名称、版本号、回合数、玩家表现(如KAST、ADR、评分等),以及每回合的胜负和结束原因。数据集还包含.dem二进制文件,每个比赛文件夹中还包含一个meta.json(HLTV的附加信息)和一个<demo>.analysis.json(嵌入到Parquet行中的完整分析JSON)。数据集支持通过DuckDB进行SQL查询,无需下载整个数据集,也支持通过HuggingFace的datasets库进行流式处理。此外,数据集还提供了通过HfFileSystem进行随机访问和通过hf CLI进行部分下载的功能。
The HLTV CS2 Demos Dataset is a collection of Counter-Strike 2 match demos scraped from HLTV.org, along with a compact per-map analysis JSON. Each row in the metadata Parquet file corresponds to one .dem file (one played CS2 map). The metadata includes fields commonly used for filtering, such as map name, patch version, rounds played, player performance metrics (e.g., KAST, ADR, rating), and details about each rounds outcome and end reason. The dataset also includes the .dem binary files, with each match folder containing a meta.json (HLTV sidecar) and a <demo>.analysis.json (the full analysis JSON embedded in the Parquet row). The dataset supports SQL queries via DuckDB without downloading the entire dataset, streaming via HuggingFaces datasets library, random access via HfFileSystem, and partial downloads via the hf CLI.
提供机构:
blanchon
搜集汇总
数据集介绍

构建方式
该数据集源自对HLTV.org上公开的《反恐精英2》(Counter-Strike 2)赛事回放文件的系统性采集与加工。每个数据行对应一个独立的.dem回放文件,即一场完整的CS2地图对局。一个三局两胜(Best-of-3)的系列赛会根据实际战况产生两至三行记录。采集过程将.dem二进制文件、HLTV元数据文件(meta.json)以及经结构化解析后的每地图分析文件(.analysis.json)以分片目录形式组织,每个分片目录以生产机器标识与UUID命名,支持多机并行上传而无冲突。所有元数据及分析结果最终被汇总并转化为自描述的Parquet格式文件,其中完整内嵌了对应分析JSON的内容,从而实现了数据集的自包含与高效查询。
特点
该数据集兼具规模庞大与结构精密的双重优势,其Parquet元数据表包含超过十万条记录,每条记录均完整呈现了从比赛宏观信息到微观事件的层次化架构。顶层字段包括比赛ID、战队名称、赛制、地图名称、CS2版本号及回合数等快速过滤维度,而嵌套结构则深入至回合胜负原因、玩家击杀时间轴(含武器、是否为爆头、距离等丰富属性)、选手综合评分(ADR、KAST、Rating)等细粒度信息。特别地,数据集的每个分片均携带HLTV元数据侧车文件,使得同一比赛内的多张地图可通过共享的match_id进行关联分析,为研究团队配合、地图策略演进及版本竞技生态提供了坚实的量化基础。
使用方法
数据集的利用方式高度灵活,支持从轻量级元数据查询到深度分析的分层路径。用户可通过DuckDB(≥0.10.3版)利用Hugging Face Hub的hf://协议路径直接对远程Parquet文件执行SQL查询,而无需下载全部数据,例如快速筛选特定版本号或地图名称下的比赛记录。对于需要完整回放数据的深度学习或行为分析任务,可采用Hugging Face的datasets库以流式模式加载数据,或在Python环境中通过huggingface_hub库的snapshot_download功能按需拉取匹配的.dem文件与分析JSON。此外,HfFileSystem提供了随机访问单个分析文件或Parquet行组的能力,而hf命令行工具配合Rust后端传输器可最大化带宽利用率,适用于大规模批量下载场景。
背景与挑战
背景概述
在电子竞技数据分析领域,反恐精英2(CS2)作为全球顶尖的战术射击游戏,其比赛过程蕴含丰富的战略与行为数据。然而,长期以来缺乏系统化、结构化的公开数据集,制约了机器学习、竞技表现分析及游戏策略研究的发展。由研究者Blanchon主导创建的HLTV CS2 Demos数据集,于近期发布于HuggingFace平台,旨在填补这一空白。该数据集通过爬取知名电竞数据平台HLTV.org的比赛结果,以Parquet格式存储元数据,并附带完整的比赛回放文件与逐地图分析JSON,覆盖了超过十万场CS2比赛。其核心研究问题聚焦于将非结构化的比赛回放转化为可计算的结构化数据,从而支持战术模式识别、选手表现评估、武器击杀热力图分析等研究。该数据集的发布显著降低了CS2电竞领域的数据获取门槛,为学术研究与行业应用提供了标准化的数据基础,对电子竞技数据科学具有开创性意义。
当前挑战
该数据集面临的核心挑战在于所解决的领域问题与构建过程的双重复杂性。首先,在竞技游戏分析中,原始比赛回放文件(.dem)规模庞大且格式封闭,传统解析工具均难以高效提取细粒度事件(如每帧击杀、投掷物轨迹),而该数据集通过预处理的、结构化的Parquet表与JSON文件,将原始二进制流转化为可直接查询的数值型特征,解决了从非结构化回放到可分析元数据的转换难题,但解析算法的准确性(如击杀事件的时间戳对齐、武器识别)仍受游戏版本更新影响。其次,构建过程中需应对HLTV.org反爬机制与海量数据存储的挑战:分布式爬虫在避免IP封锁的同时,需同步来自多台机器的分片数据;数据组织采用基于匹配ID的分层目录与分离式元数据,但回放文件与JSON的关联一致性维护、跨版本演进的字段兼容性,以及Parquet表的嵌套结构在流式查询中的性能优化,均对工程实现提出了极高要求。
常用场景
经典使用场景
在电子竞技数据分析领域,HLTV CS2 Demos Dataset凭借其精细化的比赛记录结构,成为研究《反恐精英2》职业赛事战术与选手表现的标杆性资源。该数据集以每一张地图的'.dem'文件为核心,整合了从HLTV.org爬取的元数据及紧凑的逐图分析JSON,使得研究者能够通过DuckDB或Hugging Face Datasets库直接对比赛信息进行高效筛选与复杂SQL查询。其嵌套的数据模式涵盖了地图名称、补丁版本、回合详情、玩家击杀事件链及武器使用偏好等数十个字段,为构建预测模型、分析团队博弈逻辑或评估选手竞技状态提供了结构化、可计算的基础支撑。
实际应用
在实际产业生态中,该数据集被广泛用于赛事直播的数据可视化呈现、战队战术复盘系统的构建以及游戏内平衡性调整的辅助验证。赛事组织方可依赖其中的击杀时间戳与回合胜负归属,自动生成即时回放高光片段;教练组通过分析玩家在烟雾弹、闪光弹干扰下的击杀分布,优化选手的实战训练方案;游戏开发团队则能基于不同地图的回合持续时间统计与胜负方经济曲线,校准版本更新的数值平衡。此外,基于该数据集训练的AI能模拟职业选手的走位偏好,用于虚拟对手的行为生成,提升训练软件的拟真度。
衍生相关工作
围绕该数据集已衍生出多项开创性工作,其中最引人注目的包括基于Transformer架构的赛事结果预测模型、利用图神经网络解析团队配合强度的研究,以及通过时序卷积网络识别选手‘火热手感’状态的前沿探索。部分学者借鉴其逐回合击杀链表示,开发出能够自动生成战术解说文本的语言模型;另有一些工作聚焦于跨地图迁移学习,利用该数据集丰富的比赛记录训练出能泛化到新版本地图的对抗策略优化器。这些相关成果不仅印证了该数据集作为基准测试平台的价值,更持续拓展着电子竞技智能分析的技术边界。
以上内容由遇见数据集搜集并总结生成



