five

reddit-dataset|社交媒体数据数据集|NLP数据集

收藏
github2024-05-13 更新2024-05-31 收录
社交媒体数据
NLP
下载链接:
https://github.com/linanqiu/reddit-dataset
下载链接
链接失效反馈
资源简介:
包含约260,000条来自Reddit的帖子/评论的数据集,适用于NLP项目。数据集包括文本、ID、子论坛、元数据、时间、作者、点赞数、点踩数等信息。

This dataset comprises approximately 260,000 posts/comments sourced from Reddit, suitable for NLP (Natural Language Processing) projects. It includes various details such as text, IDs, subreddits, metadata, timestamps, authors, upvotes, and downvotes.
创建时间:
2016-04-09
原始信息汇总

数据集概述:Reddit Comment and Thread Datas

数据集描述

  • 数据量: 约260,000条Reddit论坛的评论和帖子数据。
  • 用途: 适用于自然语言处理(NLP)项目。

数据结构

通用字段

  • text: 评论/帖子的文本内容。
  • id: 评论/帖子的唯一标识符。
  • subreddit: 评论/帖子所属的子论坛。
  • meta: 评论/帖子所属的元论坛。
  • time: 评论/帖子的UNIX时间戳。
  • author: 评论/帖子的作者用户名。
  • ups: 评论/帖子获得的支持票数。
  • downs: 评论/帖子获得的反对票数。
  • authorlinkkarma: 作者的链接积分。
  • authorkarma: 作者的积分。
  • authorisgold: 作者是否为黄金用户(1为是,0为否)。

帖子特定字段

  • title: 帖子的标题。
  • url: 帖子的URL。
  • authorcommentkarma: 作者的评论积分。

评论特定字段

  • authorcommentkarma: 作者的评论积分。

数据文件

  • threads.csv: 包含帖子数据,文件格式为 <metareddit>_<subreddit>.csv
  • comments.csv: 包含评论数据,文件格式为 <metareddit>_<subreddit>.csv

数据处理

  • 所有文本已转换为小写,并使用TreebankTokenizer进行分词,然后以空格连接,使得标点符号与单词分离。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过使用[omega-red](http://github.com/linanqiu/omega-red)工具从Reddit平台抓取了约260,000条帖子和评论。数据集以CSV格式存储,文件名根据所属的metareddit和subreddit命名,如`<metareddit>_<subreddit>.csv`。每个CSV文件包含详细的头部信息,如文本内容、唯一ID、所属subreddit、metareddit、时间戳、作者信息、点赞数、点踩数、作者的链接积分和评论积分等。此外,所有文本数据经过标准化处理,转换为小写并使用TreebankTokenizer进行分词,确保标点符号与单词分离,以适应自然语言处理的需求。
特点
该数据集的主要特点在于其丰富的元数据和标准化处理后的文本内容。每条数据不仅包含文本本身,还涵盖了作者的详细信息、互动数据(如点赞和点踩数)以及时间戳等,为研究社交媒体行为和用户互动提供了宝贵的资源。此外,数据集的文本经过标准化处理,便于直接用于自然语言处理任务,如情感分析、主题建模等。
使用方法
用户可以通过下载CSV文件直接访问数据集,文件中包含了详细的头部信息,便于数据解析和处理。数据集适用于多种自然语言处理任务,如文本分类、情感分析、主题建模等。用户可以根据需要选择特定的subreddit或metareddit进行分析,或利用所有数据进行更广泛的模型训练。此外,数据集还提供了原始文本文件的链接,用户可以选择使用未经过标准化处理的原始文本进行研究。
背景与挑战
背景概述
Reddit评论与主题数据集(Reddit Comment and Thread Dataset)是由Linan Qiu于2016年创建的,旨在为自然语言处理(NLP)项目提供丰富的文本数据资源。该数据集包含了从Reddit平台抓取的约26万条评论和主题,涵盖了多个子版块(subreddit)及其所属的元版块(metareddit)。通过这些数据,研究人员可以深入探索社交媒体文本的结构与特征,尤其是在情感分析、主题分类和用户行为研究等领域具有广泛的应用潜力。
当前挑战
该数据集在构建过程中面临多项挑战。首先,从Reddit平台抓取数据需要应对动态变化的网页结构和反爬虫机制,这要求抓取工具具备高度的灵活性和稳定性。其次,数据集中的文本内容多样且复杂,包括用户生成的评论、主题标题等,如何有效清洗和标准化这些文本以适应NLP任务是一个重要挑战。此外,数据集中涉及的用户行为数据(如点赞、点踩、用户等级等)为研究用户互动提供了机会,但也增加了数据处理的复杂性,尤其是在处理稀疏数据和噪声数据时。
常用场景
经典使用场景
Reddit数据集在自然语言处理(NLP)领域中具有广泛的应用,尤其适用于情感分析、主题建模和社交网络分析等经典场景。通过分析Reddit评论和帖子,研究者可以深入探讨用户在不同子版块中的情感倾向、话题热度以及社区互动模式。此外,该数据集还可用于训练和评估文本分类、情感识别和语言生成模型,为NLP研究提供了丰富的语料资源。
解决学术问题
Reddit数据集为解决多个学术研究问题提供了有力支持,尤其是在社交媒体文本分析和用户行为研究领域。通过分析评论和帖子的情感极性、用户互动模式以及社区动态,研究者能够揭示社交媒体中的信息传播规律、用户群体特征以及社区治理机制。此外,该数据集还为探索大规模文本数据的预处理、特征提取和模型训练提供了宝贵的实验平台,推动了NLP技术的进步。
衍生相关工作
Reddit数据集的发布催生了一系列相关研究工作,尤其是在社交媒体分析和NLP领域。许多研究者基于该数据集开展了情感分析、主题建模和用户行为预测等研究,提出了多种新颖的算法和模型。此外,该数据集还为社交网络分析、社区发现和信息传播动力学等领域的研究提供了丰富的实验数据,推动了相关理论和方法的发展。这些衍生工作不仅扩展了Reddit数据集的应用范围,也为社交媒体数据的深度挖掘提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

BANTH

BANTH数据集是由Penta Global Limited和Islamic University of Technology合作创建的,专门用于检测和分类转写孟加拉语中的仇恨言论。该数据集包含37,350条样本,主要来源于YouTube评论,涵盖新闻与政治、人物与博客、娱乐等多个类别。数据集的创建过程包括数据抓取、过滤、清洗和多轮人工标注与验证,确保了数据的高质量和准确性。BANTH数据集的应用领域主要集中在多标签仇恨言论检测,旨在解决低资源语言中仇恨言论自动检测的挑战,并为未来的跨语言和多标签分类研究奠定基础。

arXiv 收录

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录