Reddit Comments Dataset|社交媒体分析数据集|用户生成内容数据集
收藏Reddit Comments Dataset 概述
数据集描述
- 来源:Reddit 论坛的评论。
- 内容:从订阅数排名前五十的子论坛中,提取了顶级评论,每个子论坛最多从其前1000篇帖子中提取100条评论。
- 时间:数据截至2020年4月。
- 文件格式:评论存储在单独的
.txt
文件中,按子论坛分类。 - 附加文件:
- 一个文件包含每个
.txt
文件的词数和字符数统计。 - 另一个文件包含所有子论坛的列表,格式化为Python列表,便于使用。
- 一个文件包含每个
数据集获取
- 存储位置:数据集存储在Google Drive中。
- 链接:Google Drive 数据集链接
工具使用
- 编程语言:Python。
- API工具:Python Reddit API Wrapper (PRAW)。

- Reddit平台正式上线,开始积累用户生成的评论数据。
- Reddit首次公开其API,允许外部开发者访问和分析Reddit评论数据。
- Reddit Comments Dataset首次被学术界用于研究,特别是在自然语言处理和社交网络分析领域。
- Reddit推出更详细的API文档和数据访问权限,促进了数据集的广泛应用和研究。
- Reddit Comments Dataset被用于多个大型语言模型(如GPT-2)的训练,显著提升了模型的性能。
- Reddit开始提供更精细的数据集版本,包括按时间、主题和用户分类的数据,进一步推动了相关研究的发展。
- 1Characterizing and Detecting Hateful Users on RedditUniversity of Central Florida · 2018年
- 2Analyzing Linguistic Variation in Reddit with Variational AutoencodersUniversity of California, Berkeley · 2020年
- 3Understanding Toxicity in Online Communities: The Case of RedditUniversity of Michigan · 2021年
- 4Predicting User Behavior on Reddit: A Deep Learning ApproachStanford University · 2020年
- 5Exploring the Role of Emotions in Reddit ConversationsUniversity of Southern California · 2021年
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
2017-2020年内蒙古当地杂豆的原料特性及生物活性物质分析数据集
参照国标对内蒙古当地的豌豆、赤小豆、绿豆、红芸豆及扁豆等五种杂豆的原料特性和生物活性物质含量进行测定,并进行对比分析。
国家农业科学数据中心 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录