WitchesSocialStream/ChabikoStream
收藏Hugging Face2024-11-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/WitchesSocialStream/ChabikoStream
下载链接
链接失效反馈官方服务:
资源简介:
Chabiko Stream数据集是XChan的每日数据转储,包含线程和帖子。数据集通过两种模式进行归档:Archive模式和PostStream模式。Archive模式支持已关闭线程的归档,刷新频率最多为10分钟;PostStream模式则在不支持归档的板上使用,刷新频率最多为20秒。数据集支持的站点包括4chan,数据格式为jsonl。Archive模式下,每条json行代表一个完整的线程转储;PostStream模式下,每条json代表一个单独的帖子。数据集目前仅归档文本数据,并关闭了社区帖子以防止滥用。
Chabiko Stream数据集是XChan的每日数据转储,包含线程和帖子。数据集通过两种模式进行归档:Archive模式和PostStream模式。Archive模式支持已关闭线程的归档,刷新频率最多为10分钟;PostStream模式则在不支持归档的板上使用,刷新频率最多为20秒。数据集支持的站点包括4chan,数据格式为jsonl。Archive模式下,每条json行代表一个完整的线程转储;PostStream模式下,每条json代表一个单独的帖子。数据集目前仅归档文本数据,并关闭了社区帖子以防止滥用。
提供机构:
WitchesSocialStream
原始信息汇总
数据集概述
数据集名称
Chabiko Stream
许可证
Apache 2.0
数据集描述
Chabiko Stream 是一个每日更新的 XChan 论坛帖子数据集,由 chabiko 这个 XChan 爬虫工具抓取。
数据收集模式
数据集通过两种模式进行数据收集:
- Archive 模式:适用于支持存档的板块,存档每10分钟更新一次,如果板块更新更快,则更新频率更高。
- PostStream 模式:适用于不支持存档的板块,以流的形式抓取帖子,每20秒更新一次,如果板块更新更快,则更新频率更高。
支持的网站
- 4chan
- Futaba Channel(待定)
数据格式
两种模式的数据均以 jsonl 格式存储:
- Archive 模式:每行 json 代表一个完整的帖子存档。
- PostStream 模式:每行 json 代表一个单独的帖子。
数据模型
数据集使用以下 pydantic 模型进行解析:
- AttachmentData:附件数据模型,包含附件URL和文件名。
- Post:帖子数据模型,包含板块、帖子ID、发帖人名称、内容、附件等信息。
- Thread:帖子主题数据模型,包含标题和帖子列表。
注意事项
- 目前仅存档文本数据,图像数据存档待定。
- 由于潜在的滥用风险,社区帖子已关闭,相关交流请通过其他渠道联系 KaraKaraWitch。



