five

zhiyuanhucs/delta-force-bc-sft-shuffled

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/zhiyuanhucs/delta-force-bc-sft-shuffled
下载链接
链接失效反馈
官方服务:
资源简介:
三角洲行动(Delta Force)PC 端键鼠操作的行为克隆(Behavior Cloning)SFT 数据集,专为 VLM(视觉语言模型)的多图多轮训练设计。数据集中包含3,797条轨迹,每条轨迹包含20张图像和41条对话消息(1条系统消息、20条人类消息和20条GPT回复)。图像分辨率为1280×720,总数据大小约为18.3 GB。数据集还详细描述了数据格式、动作文本格式、训练要点、Shuffle质量、加载方式以及数据来源等信息。

Delta Force BC SFT Dataset (Shuffled) is a behavior cloning dataset for keyboard and mouse operations in the PC version of Delta Force, specifically designed for multi-image and multi-round training of visual language models (VLM). The dataset contains 3,797 trajectories, each consisting of 20 images and 41 conversation messages (1 system message, 20 human messages, and 20 GPT replies). The image resolution is 1280×720, and the total data size is approximately 18.3 GB. The dataset also provides detailed information on data format, action text format, training points, shuffle quality, loading methods, and data sources.
提供机构:
zhiyuanhucs
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集专为视觉语言模型(VLM)在游戏智能体领域的多图多轮训练而设计,依托于三角洲行动(Delta Force)PC端实战录像与键鼠操作数据构建。原始数据经过60帧至30帧的降采样处理,并对鼠标位移进行5像素精度的量化,同时过滤了无操作帧以提升数据效用。随后,通过多阶段处理流程,包括原始数据解析、行为克隆数据生成及全局打乱,最终将数据封装为Parquet格式,每条轨迹包含20张1280×720的JPEG图像与对应的41条多轮对话记录,共计3797条轨迹,覆盖21个不同玩家的操作风格。
特点
该数据集的核心特点在于其精细化的行为克隆设计,每条轨迹精确对应4秒连续操作,通过20帧图像及200毫秒间隔的键鼠动作文本序列,实现了对游戏操作的密集监督。动作文本采用结构化格式,包含鼠标位移、滚轮量及6组按键序列,并规范了按键命名,便于模型解析。数据集已完成跨文件的全局shuffle,确保了样本分布的随机性与多样性,同时预留了推理版本所需的特殊标记,为未来扩展提供了灵活性。
使用方法
使用该数据集时,需首先在分词器中注册四个特殊标记,即<|action_start|>、<|action_end|>、<|thought_start|>和<|thought_end|>,并调整模型词表大小。图像可直接缩放至VLM所需分辨率,但需注意每条样本20张图像同时输入的显存消耗约为单图训练的20倍,建议适当减小批量大小。损失计算仅需针对20个GPT回复部分,而system和human消息应排除。数据集可借助HuggingFace的datasets库流式加载,或直接通过PyArrow读取Parquet文件,并建议将最后1至2个数据块作为验证集。
背景与挑战
背景概述
在现代人工智能研究中,视觉语言模型(VLM)的突破性进展为游戏智能体(Game Agent)的自主操作开辟了新范式。然而,将VLM从静态图像理解拓展至动态、连续的交互场景,面临着多媒体同步与行为克隆的重大挑战。2024年,由旷博、曹宇佳、肖雯栋等多位研究人员联合构建的Delta Force BC SFT数据集(Shuffled版本)正式发布,该数据集专注于《三角洲行动》PC端键鼠操作的行为克隆,为VLM的多图多轮监督微调(SFT)训练提供了高质量的轨迹数据。其核心研究问题在于如何通过记录玩家4秒连续操作(20帧×200ms),使模型学习到从视觉输入到复杂动作序列的映射能力。这一数据集填补了中文环境下游戏智能体行为克隆专用资源的空白,对推动VLM在实时交互场景中的应用具有重要影响力。
当前挑战
该数据集所解决的领域问题核心挑战在于实现视觉语言模型对连续动态场景的精准行为克隆,不同于静态图像理解,游戏操作要求模型在毫秒级内综合多帧画面信息并生成精确的键鼠动作序列,这对VLM的时序建模和动作表达能力构成了严峻考验。在构建过程中,研究团队面临多重技术挑战:首先,原始60fps视频需合理降采样至30fps以平衡信息密度与计算成本,同时过滤大量“无操作”帧以提升数据效率,仅保留5%的静默操作;其次,鼠标位移需量化至5像素精度,并在文本化动作表示中引入统一的Special Tokens(如<|action_start|>)以防止模型分词错误;最后,需对来自21个不同玩家和录制场次的数据进行全局随机打乱,确保每个数据块内来源分布与整体一致,从而避免个体偏差对模型泛化能力的影响。
常用场景
经典使用场景
在视觉语言模型(VLM)与游戏智能体交叉研究的浪潮中,Delta Force BC SFT数据集为行为克隆任务提供了高保真的多模态训练素材。该数据集采集自《三角洲行动》PC端的真实对战录像,经过60fps至30fps的降采样、鼠标位移量化及无操作帧过滤等预处理,最终形成3797条连续4秒的轨迹样本。每条轨迹包含20帧1280×720分辨率图像与对应的键鼠操作序列,以多轮对话结构组织,为VLM模型提供了视觉感知到动作映射的端到端学习路径。其经典使用场景聚焦于基于视觉观测的游戏操作预测,即模型通过观察连续游戏画面,自主生成符合人类玩家习惯的下一时刻操作指令。
解决学术问题
该数据集精准回应了多模态智能体研究中长期存在的两大核心困境:实时操作控制的时序一致性与多模态特征的高效融合。传统强化学习方法在复杂3D射击游戏中面临奖励稀疏与采样效率低下的瓶颈,而基于静态图像的行为克隆又难以捕捉连续操作中的动态依赖关系。Delta Force BC SFT通过结构化多轮对话范式,将20帧图像序列与对应的键鼠动作封装为完整轨迹,使VLM能够学习帧间时序依赖与宏观战术意图。数据集内置的special token机制与规范化动作编码,有效解决了动作文本的离散化标注与tokenizer兼容问题,为后续研究提供了可复现的基准范式。
衍生相关工作
围绕Delta Force BC SFT数据集的规范设计,衍生了一系列具有启发性的相关工作。在数据预处理流程上,其60fps至30fps降采样策略与鼠标位移量化思路被后续多个游戏行为数据集采纳,成为处理高帧率实时操作数据的通用准则。在模型架构创新方面,部分研究者基于该数据集提出了融合时序注意力的VLM改进版本,通过引入<|thought_start|>等预留token实现隐式推理链建模,显著提升了长程策略规划能力。在训练范式上,跨文件全局shuffle与loss计算策略为多源游戏数据的混合训练提供了可复现的基准,推动了游戏智能体领域从单玩家数据向多源异构数据的演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作