five

WitchesSocialStream/ChabikoStream

收藏
Hugging Face2024-11-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/WitchesSocialStream/ChabikoStream
下载链接
链接失效反馈
官方服务:
资源简介:
Chabiko Stream数据集是XChan的每日数据转储,包含线程和帖子。数据集通过两种模式进行归档:Archive模式和PostStream模式。Archive模式支持已关闭线程的归档,刷新频率最多为10分钟;PostStream模式则在不支持归档的板上使用,刷新频率最多为20秒。数据集支持的站点包括4chan,数据格式为jsonl。Archive模式下,每条json行代表一个完整的线程转储;PostStream模式下,每条json代表一个单独的帖子。数据集目前仅归档文本数据,并关闭了社区帖子以防止滥用。

Chabiko Stream数据集是XChan的每日数据转储,包含线程和帖子。数据集通过两种模式进行归档:Archive模式和PostStream模式。Archive模式支持已关闭线程的归档,刷新频率最多为10分钟;PostStream模式则在不支持归档的板上使用,刷新频率最多为20秒。数据集支持的站点包括4chan,数据格式为jsonl。Archive模式下,每条json行代表一个完整的线程转储;PostStream模式下,每条json代表一个单独的帖子。数据集目前仅归档文本数据,并关闭了社区帖子以防止滥用。
提供机构:
WitchesSocialStream
原始信息汇总

数据集概述

数据集名称

Chabiko Stream

许可证

Apache 2.0

数据集描述

Chabiko Stream 是一个每日更新的 XChan 论坛帖子数据集,由 chabiko 这个 XChan 爬虫工具抓取。

数据收集模式

数据集通过两种模式进行数据收集:

  • Archive 模式:适用于支持存档的板块,存档每10分钟更新一次,如果板块更新更快,则更新频率更高。
  • PostStream 模式:适用于不支持存档的板块,以流的形式抓取帖子,每20秒更新一次,如果板块更新更快,则更新频率更高。

支持的网站

  • 4chan
  • Futaba Channel(待定)

数据格式

两种模式的数据均以 jsonl 格式存储:

  • Archive 模式:每行 json 代表一个完整的帖子存档。
  • PostStream 模式:每行 json 代表一个单独的帖子。

数据模型

数据集使用以下 pydantic 模型进行解析:

  • AttachmentData:附件数据模型,包含附件URL和文件名。
  • Post:帖子数据模型,包含板块、帖子ID、发帖人名称、内容、附件等信息。
  • Thread:帖子主题数据模型,包含标题和帖子列表。

注意事项

  • 目前仅存档文本数据,图像数据存档待定。
  • 由于潜在的滥用风险,社区帖子已关闭,相关交流请通过其他渠道联系 KaraKaraWitch。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作