Arknights-6th-ThankYou-Celebration-PV-Comments
收藏Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/ZeroAurora/Arknights-6th-ThankYou-Celebration-PV-Comments
下载链接
链接失效反馈官方服务:
资源简介:
《明日方舟》2025「感谢庆典」活动宣传PV评论区数据
创建时间:
2025-10-28
原始信息汇总
《明日方舟》2025「感谢庆典」活动宣传PV评论区数据
数据集概述
- 语言:中文
- 数据集名称:《明日方舟》2025「感谢庆典」活动宣传PV评论区数据
- 数据规模:10K<n<100K
数据内容
- 包含评论区用户评论数据
- 已完成匿名化处理
数据处理
爬虫工具
- 使用blblcd工具进行内容爬取:https://github.com/WShihan/blblcd
数据处理流程
- 使用ClickHouse数据库进行数据存储和处理
- 数据表结构包含:rpid、parent、ctime、mid、level、sex、like、content字段
- 对用户mid进行哈希处理实现匿名化
- 最终输出为Parquet格式文件
任务状态
- 内容爬取:已完成
- 匿名化处理:已完成
搜集汇总
数据集介绍

构建方式
在数字媒体分析领域,数据集的构建往往依赖于高效的技术工具与严谨的处理流程。本数据集通过blblcd爬虫工具从《明日方舟》2025「感谢庆典」宣传PV的评论区系统采集原始数据,涵盖用户ID、评论时间、层级关系及内容文本等多维字段。随后采用ClickHouse数据库进行结构化存储,通过SQL指令完成数据清洗与匿名化处理,利用xxh3哈希算法对用户标识符进行脱敏,最终导出为Parquet格式,确保数据隐私与完整性并存。
特点
作为聚焦于游戏社区互动的研究资源,该数据集收录了规模介于一万至十万条之间的中文评论,生动呈现了玩家对庆典活动的实时反馈。其特点在于完整保留了评论的层级结构与社会属性,包括点赞数、用户性别及评论级别等字段,为分析社区互动模式提供了丰富维度。数据经过标准化处理且不含个人可识别信息,既符合伦理规范又具备高度的可挖掘性,尤其适用于自然语言处理与社会计算领域的探索。
使用方法
针对社群行为与情感分析的研究需求,使用者可直接加载Parquet格式文件至主流数据分析框架(如Pandas或Spark)进行探索。该数据集支持对评论内容进行语义挖掘、用户互动网络构建以及时间序列分析等任务。通过解析层级关系与元数据,研究者能够深入探究社区话题演化规律或训练文本分类模型,但需注意遵循数据使用伦理,避免对脱敏信息进行反向推断。
背景与挑战
背景概述
随着数字媒体时代的深入发展,游戏社区互动数据已成为研究玩家行为与情感表达的重要载体。《明日方舟》作为鹰角网络开发的策略塔防手游,其2025年「感谢庆典」宣传PV评论区数据集由社区开发者于2024年通过开源工具blblcd采集,聚焦于分析玩家在庆典活动中的实时互动模式与情感倾向。该数据集涵盖超万条结构化评论,通过ClickHouse数据库实现匿名化存储,为游戏社会学与计算传播学提供了珍贵的实证研究基础。
当前挑战
在游戏社区情感分析领域,该数据集需解决多模态语境下玩家意图识别的复杂性,例如反讽与文化梗的语义消歧。数据构建过程中面临动态内容爬取的稳定性挑战,包括B站弹幕系统的反爬机制与高并发访问限制;匿名化处理需平衡用户隐私保护与数据可用性,通过xxh3哈希算法实现UID脱敏的同时,需防范哈希冲突导致的关系链断裂风险。
常用场景
经典使用场景
在数字人文与社交媒体分析领域,该数据集为研究虚拟社区情感表达提供了典型范本。通过分析《明日方舟》玩家在庆典宣传片评论区的互动内容,学者能够系统观察亚文化群体如何通过文本构建集体记忆与情感共鸣。这些包含时间戳、点赞数与层级关系的评论数据,特别适用于探究用户参与度与内容传播规律的关联性。
解决学术问题
该数据集有效解决了新媒体时代虚拟社群研究的若干核心问题。其匿名化处理的用户行为轨迹,为量化研究粉丝经济中的情感劳动提供了数据支撑;多层级评论结构则助力于解析网络话语场的互动模式。通过时间序列分析,研究者可揭示节日营销活动中用户参与度的波动规律,这对完善数字社群动力学理论具有显著意义。
衍生相关工作
基于此类游戏评论数据衍生的研究已形成系列成果。有学者构建了玩家情感词典用于预测内容传播效果,另有研究结合图神经网络开发了社区影响力评估模型。这些工作持续推动着计算传播学与数字人文的交叉创新,为理解虚拟社群的演化机制提供了新的理论视角。
以上内容由遇见数据集搜集并总结生成



