five

kjj0/4chanpol

收藏
Hugging Face2024-01-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kjj0/4chanpol
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2016年6月至2019年11月期间的114M个独特帖子,是[Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the Politically Incorrect Board](https://arxiv.org/abs/2001.07487)数据集的变体,去除了重复帖子和元数据。数据集的目的在于通过OpenAI的预测(相当准确)来廉价获取大量带标签的文本数据集(尽管包含一些不愉快的内容),以便研究数据选择、主动学习、标签噪声和训练课程。

该数据集包含2016年6月至2019年11月期间的114M个独特帖子,是[Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the Politically Incorrect Board](https://arxiv.org/abs/2001.07487)数据集的变体,去除了重复帖子和元数据。数据集的目的在于通过OpenAI的预测(相当准确)来廉价获取大量带标签的文本数据集(尽管包含一些不愉快的内容),以便研究数据选择、主动学习、标签噪声和训练课程。
提供机构:
kjj0
原始信息汇总

数据集概述

基本信息

  • 数据集名称: kjj0/4chanpol
  • 警告: 包含攻击性内容

数据集内容

  • 时间范围: 2016年6月至2019年11月
  • 帖子数量: 114,000,000个独特帖子
  • 数据处理: 已去重并去除元数据

数据集结构

  • 特征:
    • text: 字符串类型
  • 分割:
    • train: 包含114,647,404个样本,数据大小为17,193,959,653字节

数据集大小

  • 下载大小: 11,559,500,898字节
  • 数据集大小: 17,193,959,653字节

数据集用途

  • 研究目的: 用于数据选择、主动学习、标签噪声和训练课程的研究
  • 附加信息: 提供包含OpenAI审核分数的变体数据集 kjj0/4chanpol-openaimod
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作