kjj0/4chanpol
收藏Hugging Face2024-01-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kjj0/4chanpol
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2016年6月至2019年11月期间的114M个独特帖子,是[Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the Politically Incorrect Board](https://arxiv.org/abs/2001.07487)数据集的变体,去除了重复帖子和元数据。数据集的目的在于通过OpenAI的预测(相当准确)来廉价获取大量带标签的文本数据集(尽管包含一些不愉快的内容),以便研究数据选择、主动学习、标签噪声和训练课程。
该数据集包含2016年6月至2019年11月期间的114M个独特帖子,是[Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the Politically Incorrect Board](https://arxiv.org/abs/2001.07487)数据集的变体,去除了重复帖子和元数据。数据集的目的在于通过OpenAI的预测(相当准确)来廉价获取大量带标签的文本数据集(尽管包含一些不愉快的内容),以便研究数据选择、主动学习、标签噪声和训练课程。
提供机构:
kjj0
原始信息汇总
数据集概述
基本信息
- 数据集名称: kjj0/4chanpol
- 警告: 包含攻击性内容
数据集内容
- 时间范围: 2016年6月至2019年11月
- 帖子数量: 114,000,000个独特帖子
- 数据处理: 已去重并去除元数据
数据集结构
- 特征:
- text: 字符串类型
- 分割:
- train: 包含114,647,404个样本,数据大小为17,193,959,653字节
数据集大小
- 下载大小: 11,559,500,898字节
- 数据集大小: 17,193,959,653字节
数据集用途
- 研究目的: 用于数据选择、主动学习、标签噪声和训练课程的研究
- 附加信息: 提供包含OpenAI审核分数的变体数据集 kjj0/4chanpol-openaimod



