five

CS2CD

收藏
arXiv2025-08-08 更新2025-08-12 收录
下载链接:
https://doi.org/10.57967/hf/5315
下载链接
链接失效反馈
官方服务:
资源简介:
CS2CD数据集是一个包含795场Counter-Strike 2游戏比赛的数据集,其中317场比赛包含至少一名作弊者,478场比赛没有作弊者标签。数据集包含每场比赛的两个文件:一个用于tick数据的PARQUET文件和一个用于事件数据的JSON文件。该数据集旨在用于训练和评估用于作弊检测的机器学习模型。

The CS2CD dataset is a collection of 795 Counter-Strike 2 game matches, among which 317 matches contain at least one cheater, and 478 matches have no cheater labels. Each match in this dataset is paired with two files: a PARQUET file for tick data and a JSON file for event data. This dataset is designed for training and evaluating machine learning models for cheat detection.
提供机构:
哥本哈根信息技术大学
创建时间:
2025-08-08
搜集汇总
数据集介绍
main_image_url
构建方式
CS2CD数据集的构建基于《反恐精英2》(Counter-Strike 2)的公开比赛录像(DEM文件),通过自动化脚本从第三方平台采集795场匹配数据,其中317场包含经VAC封禁系统标记的作弊玩家。为确保标签可靠性,研究团队对含作弊嫌疑的录像进行了人工复核,采用严格证据标准(如透视、自瞄等可观测行为)进行标注。数据提取采用demoparser2库将DEM文件解析为结构化时间序列(tick数据)和事件日志(JSON格式),并通过匿名化处理移除玩家昵称、皮肤标识等敏感信息,最终发布48.9GB的PARQUET和JSON文件组合。
特点
该数据集的核心特点在于其细粒度的行为捕捉与严谨的标注体系。每场比赛包含64Hz采样的玩家状态数据(如坐标、武器、击杀事件),并创新性地构建了以击杀事件为中心的256-tick上下文窗口(4秒时长),形成90,707个多维时间序列样本。为解决类别不平衡问题,研究团队对作弊样本进行3倍高斯噪声增强,最终获得218,260个样本(作弊与非作弊比例1:2)。数据维度涵盖44个特征,包括攻击者/受害者状态、武器类型热编码及地图信息,为行为模式分析提供丰富时空上下文。
使用方法
数据集适用于基于机器学习的作弊检测研究,尤其适合时序建模方法。典型使用流程包括:1)从PARQUET文件加载tick数据构建256×44维输入矩阵,结合JSON事件日志定位作弊标签;2)应用Transformer等序列模型处理时空特征,其中AntiCheatPT 256模型采用4层编码器架构,通过正弦位置编码捕捉时序依赖性;3)评估时建议采用0.7分类阈值以降低误报率,并参考论文提供的70%/15%/15%标准划分方案。数据集额外提供未增强的测试集(12,675样本)以模拟真实场景,研究者可通过HuggingFace平台获取完整数据与预处理代码。
背景与挑战
背景概述
CS2CD数据集由哥本哈根IT大学的研究团队于2025年发布,旨在解决竞技类电子游戏中的作弊检测难题。该数据集包含795场《反恐精英2》比赛的对战记录,通过解析DEM文件提取了90,707个时间序列上下文窗口,标注了作弊与非作弊行为。作为首个公开的CS2作弊检测数据集,其创新性体现在结合VAC封禁数据与人工复核的双重验证机制,为行为分析型反作弊研究提供了重要基准。该数据集的发布突破了传统反作弊系统封闭性的局限,推动了基于Transformer等深度学习模型的开放式研究生态。
当前挑战
在领域问题层面,CS2CD需解决动态作弊行为识别中的关键挑战:作弊手段持续进化导致的特征漂移问题,以及合法高手操作与作弊行为的模糊边界。数据构建过程中面临三重困难:DEM文件敏感信息匿名化处理的技术障碍,VAC封禁标签24.7%的低召回率迫使人工复核全部可疑样本,以及玩家地图偏好差异导致的类别不平衡。此外,游戏状态每秒64次更新的高频特性,对时间序列建模的算力需求提出了严峻考验。
常用场景
经典使用场景
在电子竞技领域,CS2CD数据集为研究作弊检测算法提供了丰富的行为数据支持。该数据集通过记录《反恐精英2》中玩家的详细操作数据,如移动轨迹、武器使用和击杀事件,为机器学习模型训练提供了标准化输入。尤其在分析异常行为模式方面,数据集中的时间序列窗口能够有效捕捉作弊者与正常玩家的微观行为差异,为后续研究奠定了数据基础。
实际应用
在实际游戏运营中,CS2CD数据集支撑的检测模型可部署于服务器端实时分析玩家行为。通过处理每秒64帧的游戏状态数据,系统能在3.35毫秒内完成单次行为判定,这种非侵入式方案既规避了传统反作弊系统侵犯用户隐私的风险,又能有效识别自瞄、透视等复杂作弊手段,目前已为多款竞技游戏提供第三方检测服务。
衍生相关工作
基于该数据集的开源特性,后续研究衍生出三个方向:一是Kanervisto等人将GAN网络引入自瞄作弊生成与检测的对抗研究;二是Jonnalagadda团队开发的视觉特征融合模型,结合游戏画面与行为数据进行多模态分析;三是受其启发的《IEEE Transactions on Games》特刊,专门探讨机器学习在游戏安全中的前沿应用,推动了该领域的学术交流。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作