Four-Leaf-Clover-Hyper-Split-01
收藏Four Leaf Clover 数据集概述
数据集基本信息
- 数据集名称:Four Leaf Clover
- 维护者:karaKarawitch
- 语言:主要为英语,偶尔存在语码转换
- 许可协议:数据集本身使用 Apache-2.0 许可;单个帖子继承原始、未明确的用户版权,再分发遵循合理使用原则。
- 数据集版本:v1.2.0(附件已启用)
- 标签:not-for-all-audiences
- 任务类别:文本分类、文本生成、文本到图像
数据集描述
Four Leaf Clover 是一个未经筛选、按时间顺序排列的公开帖子爬取数据集,内容截取自截至2025年9月所有活跃的 4chan 板块(包含附件)。每条记录包含作者提交的原始文本以及归档时链接的任何图像或媒体文件。数据未经任何编辑、重写或速率限制。
数据集来源与构成
- 源存储库:https://huggingface.co/datasets/WitchesSocialStream/Four-Leaf-Clover
- 数据收集期:2024年11月 → 持续每小时上传
- 数据总量:约 22 TB(包含附件和帖子)
- 数据格式:每个板块(或日切片,若帖子数 >10万)对应一个 JSONL 文件,每行代表一个帖子。
- 数据结构:包含板块、主题ID、帖子ID、显示名称、原始消息、附件信息(可选)和发布时间戳(UTC 秒)等字段。
- 数据划分:无。按时间顺序流式处理以保持时间关系。
- 数据过滤:无。
预期用途
直接用途 - 研究与社区价值
- 毒性及滥用检测:用于查找难以发现的侮辱性语言、诱导性语言或其他有害模式的大型、最新来源。
- 方言与模因演变研究:研究 4chan 模因如何迁移到主流平台。
- 反错误信息数据集:作为负面示例,用于增强在更安全语料库上训练的审核模型。
- 匿名性对讨论的影响:分析说话者身份缺失如何改变对话结构的语言学分析。
超出范围/禁止用途
- 训练开放式生成聊天机器人:数据集本身不禁止此用途,但由此产生的任何后果(如模型崩溃、被封禁或引发法律问题)需用户自行承担。
- 收集个人身份信息:电子邮件、Discord 或社交媒体账号未被清理。
- 商业性不良内容生成(煽动、自残指导)。
- 微调任何用于大规模抓取或自动发帖回 4chan 的模型(违反 4chan 服务条款)。
数据集创建背景
- 策划理由:
- 覆盖空白:现有的 4chan 语料库要么过时,要么限于特定板块,或移除了附件。
- 研究效用:与 Reddit / Twitter 数据集相比,匿名言论的研究仍然不足。
- 数据生产者:所有贡献者均为化名(“匿名”或识别码)。不存储或关联 IP 哈希值。任何人口统计或身份数据均由用户提供(不可靠)。
个人与敏感信息
- 包含个人身份信息:如账号、时间戳和交叉链接的用户名可能包含个人身份信息。
- 包含敏感内容:如种族歧视言论、性取向、自残内容、医学/心理学主张、政治倾向。
- 匿名化处理:零过滤、零清理、零消毒。所有内容均保持抓取时的原始状态。
偏见、风险与限制
| 方面 | 现实情况 |
|---|---|
| 仇恨言论 | 4chan 大规模地使侮辱性语言常态化。预计超过 20% 的内容违反标准内容政策。 |
| 性别偏见 | 严重偏向使用男性化代词;许多板块普遍存在厌女症比喻。 |
| 法律风险 | 4chan 的审核会迅速删除非法附件;尽管如此,零日上传的内容仍可能漏网。未对附件进行任何过滤或哈希处理。存储、重新托管或重新分发附件完全由用户自行承担法律风险。 |
| 时间漂移 | 4chan 的文化变化迅速;任何超过 6 个月的内容可能不再反映当前规范。 |
| 用户同意 | 内容为公开帖子,但用户未同意用于机器学习。应视为伦理灰色地带。 |
负责任使用建议
- 过滤与平衡:与更安全的数据集配对,或生成合成的正面/负面示例,以减少极端主义放大。
- 仇恨检查:在发布前,使用如 HolisticBias 等工具运行每个模型;公开记录评估结果。
- 明确说明:在任何下游提及该数据集时,显著披露其 4chan 来源。
- 阻止重新部署回源:不要构建在 4chan 上发帖的机器人;版主会封禁你,社区会出于乐趣人肉你。
- 红队测试:让外部伦理审查员审计敏感主题的训练过程。
索引的板块
索引所有活跃板块,包括但不限于:/a/, /b/, /c/, /d/, /e/, /f/, /g/, /gif/, /h/, /hr/, /k/, /m/, /o/, /p/, /r/, /s/, /t/, /u/, /v/, /vg/, /vm/, /vmg/, /vr/, /vrpg/, /vst/, /w/, /wg/, /i/, /ic/, /r9k/, /s4s/, /vip/, /qa/, /cm/, /hm/, /lgbt/, /y/, /3/, /aco/, /adv/, /an/, /bant/, /biz/, /cgl/, /ck/, /co/, /diy/, /fa/, /fit/, /gd/, /hc/, /his/, /int/, /jp/, /lit/, /mlp/, /mu/, /n/, /news/, /out/, /po/, /pol/, /pw/, /qst/, /sci/, /soc/, /sp/, /tg/, /toy/, /trv/, /tv/, /vp/, /vt/, /wsg/, /wsr/, /x/, /xs/。
引用信息
-
BibTeX: bibtex @misc{fourleafclover2025, title={Four Leaf Clover: Unfiltered 4chan Corpus}, author={karaKarawitch}, howpublished={Hugging Face dataset}, year={2025}, url={https://huggingface.co/datasets/WitchesSocialStream/Four-Leaf-Clover} }
-
APA: karaKarawitch (2025). Four Leaf Clover: Unfiltered 4chan Corpus [Dataset]. Hugging Face. https://huggingface.co/datasets/WitchesSocialStream/Four-Leaf-Clover




