reddit_dataset_11
收藏Bittensor Subnet 13 Reddit Dataset
数据集描述
- 仓库: littleGuagua/reddit_dataset_11
- 子网: Bittensor Subnet 13
- 矿工热键: 5DD2cNrYaNsxc12sYNJDXmMARDXhXHSMwgos2UC75c6dDoNu
数据集概述
该数据集是Bittensor Subnet 13去中心化网络的一部分,包含预处理的Reddit数据。数据由网络矿工持续更新,提供实时Reddit内容流,适用于各种分析和机器学习任务。
支持的任务
- 情感分析
- 主题建模
- 社区分析
- 内容分类
语言
主要语言:数据集主要是英语,但由于去中心化的创建方式,也可能是多语言的。
数据集结构
数据实例
每个实例代表一个Reddit帖子或评论,包含以下字段:
数据字段
text(字符串): Reddit帖子或评论的主要内容。label(字符串): 内容的情感或主题类别。dataType(字符串): 指示条目是帖子还是评论。communityName(字符串): 内容发布的子版块名称。datetime(字符串): 内容发布或评论的日期。username_encoded(字符串): 为了保护用户隐私,用户名的编码版本。url_encoded(字符串): 内容中包含的任何URL的编码版本。
数据分割
该数据集持续更新,没有固定的分割。用户应根据其需求和数据的时间戳创建自己的分割。
数据集创建
源数据
数据从Reddit上的公开帖子和评论中收集,遵守平台的条款服务和API使用指南。
个人和敏感信息
所有用户名和URL都经过编码以保护用户隐私。数据集不包含个人或敏感信息。
使用数据的注意事项
社会影响和偏见
用户应注意Reddit数据中可能存在的偏见,包括人口统计和内容偏见。该数据集反映了Reddit上表达的内容和观点,不应被视为一般人口的代表性样本。
局限性
- 数据质量可能因媒体来源的性质而异。
- 数据集可能包含噪音、垃圾邮件或与社交媒体平台相关的无关内容。
- 由于实时收集方法,可能存在时间偏差。
- 数据集仅限于公共子版块,不包括私人或受限社区。
附加信息
许可信息
该数据集在MIT许可下发布。使用此数据集还须遵守Reddit的使用条款。
引用信息
如果您在研究中使用此数据集,请按以下方式引用:
@misc{littleGuagua2024datauniversereddit_dataset_11, title={The Data Universe Datasets: The finest collection of social media data the web has to offer}, author={littleGuagua}, year={2024}, url={https://huggingface.co/datasets/littleGuagua/reddit_dataset_11}, }
贡献
如需报告问题或贡献数据集,请联系矿工或使用Bittensor Subnet 13治理机制。
数据集统计
- 总实例数: 787534
- 日期范围: 2024-12-01T00:00:00Z 至 2024-12-01T00:00:00Z
- 最后更新: 2024-12-01T07:12:22Z
数据分布
- 帖子: 6.37%
- 评论: 93.63%
前10个子版块
| 排名 | 主题 | 总数 | 百分比 |
|---|---|---|---|
| 1 | r/CFB | 23129 | 2.94% |
| 2 | r/AskReddit | 9036 | 1.15% |
| 3 | r/AITAH | 4929 | 0.63% |
| 4 | r/AmIOverreacting | 2947 | 0.37% |
| 5 | r/teenagers | 2320 | 0.29% |
| 6 | r/nonutnovember | 2160 | 0.27% |
| 7 | r/LonghornNation | 2140 | 0.27% |
| 8 | r/GOONED | 2134 | 0.27% |
| 9 | r/politics | 2119 | 0.27% |
| 10 | r/AmItheAsshole | 2026 | 0.26% |
更新历史
| 日期 | 新增实例数 | 总实例数 |
|---|---|---|
| 2024-12-01T07:12:22Z | 787534 | 787534 |




