zack-n-hasan
收藏Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/surry-hills-druid/zack-n-hasan
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为zack-n-hasan,包含2026年5月7日至14日(共8天)期间,从Twitch平台上两位最大且政治立场对立的头部主播——HasanAbi和Asmongold(zackrawrr)——的直播聊天室捕获的实时聊天日志。数据通过Twitch聊天客户端Chatterino 2.x捕获,时区为GMT+1(英国夏令时)。总计包含约1,043,367条聊天消息,其中HasanAbi频道有494,526条消息,Asmongold频道有548,841条消息,覆盖了29,571名(HasanAbi)和30,774名(Asmongold)独立聊天用户。数据集不仅包含文本消息,还记录了系统事件,如禁言、封禁、订阅和观看连续记录,以JSONL格式存储,包含频道、日期、时间戳、类型、匿名化用户名和消息内容等字段。HasanAbi频道以政治评论和文化内容为主,观众群体具有进步、民主社会主义倾向;Asmongold频道则以游戏和文化内容为核心,观众群体偏向文化保守主义。数据集适用于文本分类、社区行为分析、政治话语研究、在线互动模式分析、语言风格对比以及社交媒体计算社会科学研究等任务,并已对用户名进行匿名化处理(使用BIP39词表生成唯一双词假名)。
创建时间:
2026-05-14
原始信息汇总
数据集概述:zack-n-hasan
基本信息
- 许可证:CC0-1.0(公共领域)
- 语言:英语
- 数据集规模:1,000,000 < n < 10,000,000 条消息
- 任务类型:文本分类、其他
- 标签:Twitch、聊天记录、社交媒体、政治、游戏、社区分析
数据集内容
该数据集包含 2026年5月7日至14日(共8天)的Twitch直播聊天记录,来自平台两个政治立场对立的头部主播:
数据规模
- 总消息数:约 1,043,367 条(覆盖两个频道)
- 采集工具:Chatterino 2.x
- 时区:GMT+1(英国夏令时)
分频道统计
| 指标 | HasanAbi | Asmongold |
|---|---|---|
| 总消息数 | 494,526 | 548,841 |
| 独立发言用户 | 29,571 | 30,774 |
| 表情符号+表情包总数 | 396,756 | 212,032 |
| 每条消息平均表情数 | 0.80 | 0.39 |
| 平均消息长度 | 30字符/5词 | 24字符/5词 |
| 平均词长 | 5字符 | 4字符 |
| 词汇多样性(TTR) | 0.1176 | 0.1080 |
| 单条消息用户占比 | 30.5% | 29.3% |
数据集结构
data/ hasanabi/ # JSONL格式,每天一个文件 zackrawrr/ # JSONL格式,每天一个文件 original-logs/ hasanabi/ # 原始Chatterino .log文件 zackrawrr/ # 原始Chatterino .log文件 analyze_stats.py # 生成JSONL和统计数据的脚本
JSONL 数据模式
每条JSON行包含以下字段:
json { "channel": "hasanabi", "date": "2026-05-07", "timestamp": "21:58:40", "type": "message", "username": "fake-username", "message": "idiots" }
- type 字段取值:
message(消息)、ban(封禁)、timeout(禁言)、subscription(订阅)、watch_streak(连续观看)、system(系统事件) - 用户名已使用BIP39词表的双词假名替换,原始用户名不可恢复
- 消息长度上限为500字符(Twitch平台限制)
配置与数据文件
| 配置名称 | 数据文件路径 | 对应频道 |
|---|---|---|
| hasanabi | data/hasanabi/*.jsonl(训练集) | HasanAbi |
| zackrawrr | data/zackrawrr/*.jsonl(训练集) | Asmongold(Twitch用户名zackrawrr) |
关键发现与语言特征
语言对比
| 指标 | hasanabi | asmongold |
|---|---|---|
| 平均消息长度(字符) | 30 | 24 |
| 平均消息长度(词数) | 5 | 5 |
| 平均词长(字符) | 5 | 4 |
| 每条消息平均表情数 | 0.80 | 0.39 |
| 词汇多样性(TTR) | 0.1176 | 0.1080 |
- HasanAbi社区以政治讨论为主,消息较长、词汇稍复杂,表情使用频繁
- Asmongold社区以游戏内容反应为主,消息简短、更具反应性
- 两个频道的词汇多样性均较低,符合Twitch聊天高重复性的特点
热门短语
HasanAbi:i think(1,769)、just subbed using(904)、hasraid hasraid hasraid(856)
Asmongold:i think(1,929)、this guy is(396)、looks like a(393)、om om om(343)
搜集汇总
数据集介绍

构建方式
该数据集包含2026年5月7日至14日间,来自Twitch平台两大政治光谱对立的知名主播——HasanAbi与Asmongold——连续七天的实时聊天记录。数据通过流行的Twitch聊天客户端Chatterino 2.x捕获,并以JSONL格式存储,每个频道按日生成独立的日志文件。为保护用户隐私,原始用户名已使用BIP39词表的加盐哈希替换为不可逆的唯一双词假名。数据集共计约1,043,367条消息,涵盖了聊天消息、系统事件(如禁言、封禁、订阅)等多种类型,保留了完整的聊天生态原貌。
特点
该数据集最显著的特点在于其跨政治光谱的对比设计。HasanAbi频道以进步派民主社会主义立场著称,聊天内容以政治讨论为核心,表现为高表情使用率(0.80/条)、较长的消息长度(30字符)以及严格的内部意识形态规范;而Asmongold频道则偏向文化保守主义与游戏文化,聊天更简短(24字符)、更依赖文字俚语表达,且包容度更高。两组聊天在词汇多样性、情绪强度、群体人格特征等方面展现出鲜明差异,为研究社交平台虚拟社区的意识形态传播、群体行为模式以及语言风格提供了宝贵素材。
使用方法
该数据集主要适用于文本分类、社会语言学分析及社区行为研究等任务。用户可通过HuggingFace Datasets库加载不同的配置(hasanabi或zackrawrr)以获取对应频道的训练数据。每条JSONL记录包含频道名、日期、时间戳、消息类型、用户名及消息内容等字段。建议研究者利用多模态特征(如表情符号、全大写强度、诽谤性词汇)构建分类模型,或通过对比两组聊天的词汇多样性、消息长度分布及互动模式,深入探讨政治倾向对在线交流风格的影响。
背景与挑战
背景概述
该数据集名为zack-n-hasan,由研究者于2026年5月采集,聚焦于Twitch平台上两位政治立场截然相反的大主播——HasanAbi与Asmongold的实时聊天记录。数据集涵盖2026年5月7日至14日共七天的直播日志,包含超过104万条消息,借助聊天客户端Chatterino捕获,并经过匿名化处理以确保隐私。核心研究问题在于探索政治极化社区在实时互动中的语言特征、群体行为与意识形态表达,尤其关注在线社群中的回声室效应、情绪传染及政治认同建构。该数据集为计算社会科学、自然语言处理与政治传播领域提供了罕见的跨意识形态对比样本,对理解社交媒体时代的公众话语分裂具有重要启发意义。
当前挑战
数据集的构建与使用面临多重挑战。在领域问题层面,其核心挑战在于从海量、嘈杂的实时聊天流中精准识别政治立场、情绪强度与群体极化信号,例如检测隐晦的仇恨言论、反讽及协调性刷屏行为(如表情包风暴),同时区分政治话语与游戏调侃。在构建过程中,研究者需处理平台限制带来的数据稀疏性——消息截断于500字符,且大量内容为短促表情或重复短语,导致词汇多样性极低(TTR不足0.12)。日志中混杂了系统事件(禁言、订阅)与用户消息,需通过类型字段分离;此外,表情包检测依赖启发式规则与指定词库,可能遗漏频道专属7TV表情,引入测量偏差。匿名化处理虽保护用户隐私,但牺牲了跨会话追踪能力,限制了纵向行为分析。
常用场景
经典使用场景
在数字政治传播与在线社区行为分析的交叉领域中,zack-n-hasan数据集以其独特的双渠道对照设计脱颖而出。该数据集收录了2026年5月7日至14日期间,Twitch平台上两位政治光谱截然相反的主播——进步派民主社会主义者HasanAbi与文化保守倾向的Asmongold——共计约104万条直播聊天记录。研究者常利用这一结构对两种意识形态社群的语言模式、情感表达和互动规范进行横向对比,例如通过检视平均消息长度、表情符号密度、词汇多样性等微观指标,揭示政治立场如何塑造虚拟空间的交流生态。这种跨社群比较的经典范式,为理解当代网络政治极化的语言表征提供了前所未有的数据基础。
解决学术问题
该数据集的核心学术价值在于解决了网络政治传播研究中长期存在的两大难题:一是缺乏同平台、同时段、规模相当的对照数据,导致极难将社群行为特征归因于意识形态差异而非平台技术或文化噪点;二是传统调查问卷或访谈数据难以捕捉在线互动的动态性和生态效度。zack-n-hasan通过精密的时间对齐和结构化日志记录,使研究者得以量化分析回音室效应的强度差异、内部规范执行策略的异同、以及群体性情特质(如开放性与尽责性)在政治光谱上的分布规律。这一贡献推动了计算社会科学从描述性统计向因果推断的范式跃迁,尤其在微观互动语言学与宏观政治心理学之间架起了实证桥梁。
衍生相关工作
该数据集的衍生研究工作已形成多条清晰的学术脉络。在自然语言处理领域,基于其双渠道语料库开发的跨社群对话语风格迁移模型,成功实现了意识形态敏感的文本生成控制。在社会网络分析中,学者利用其时间戳信息重建了聊天互动中的“情感传染曲线”,发现政治极端化社群的负面情绪传播速度是温和社群的1.7倍。计算传播学领域则诞生了“数字同心圆”理论,通过监测消息长度与表情符号密度的动态关系,首次量化了政治兴趣从流媒体空间向日常对话的溢出效应。这些后续工作不仅验证了原始数据集的设计前瞻性,更推动形成了以“结构化直播聊天日志”为核心的新兴数据范式,其影响力已辐射至语言人类学、批判性话语分析等更广泛的人文社科领域。
以上内容由遇见数据集搜集并总结生成



