graphs-datasets/reddit_threads
收藏Hugging Face2023-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/graphs-datasets/reddit_threads
下载链接
链接失效反馈官方服务:
资源简介:
---
license: gpl-3.0
task_categories:
- graph-ml
---
# Dataset Card for Reddit threads
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [External Use](#external-use)
- [PyGeometric](#pygeometric)
- [Dataset Structure](#dataset-structure)
- [Data Properties](#data-properties)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Additional Information](#additional-information)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **[Homepage](https://snap.stanford.edu/data/reddit_threads.html)**
- **Paper:**: (see citation)
### Dataset Summary
The `Reddit threads` dataset contains 'discussion and non-discussion based threads from Reddit which we collected in May 2018. Nodes are Reddit users who participate in a discussion and links are replies between them' (doc).
### Supported Tasks and Leaderboards
The related task is the binary classification to predict whether a thread is discussion based or not.
## External Use
### PyGeometric
To load in PyGeometric, do the following:
```python
from datasets import load_dataset
from torch_geometric.data import Data
from torch_geometric.loader import DataLoader
dataset_hf = load_dataset("graphs-datasets/<mydataset>")
# For the train set (replace by valid or test as needed)
dataset_pg_list = [Data(graph) for graph in dataset_hf["train"]]
dataset_pg = DataLoader(dataset_pg_list)
```
## Dataset Structure
### Dataset information
- 203,088 graphs
### Data Fields
Each row of a given file is a graph, with:
- `edge_index` (list: 2 x #edges): pairs of nodes constituting edges
- `y` (list: #labels): contains the number of labels available to predict
- `num_nodes` (int): number of nodes of the graph
### Data Splits
This data is not split, and should be used with cross validation. It comes from the PyGeometric version of the dataset.
## Additional Information
### Licensing Information
The dataset has been released under GPL-3.0 license.
### Citation Information
See also [github](https://github.com/benedekrozemberczki/karateclub).
```
@inproceedings{karateclub,
title = {{Karate Club: An API Oriented Open-source Python Framework for Unsupervised Learning on Graphs}},
author = {Benedek Rozemberczki and Oliver Kiss and Rik Sarkar},
year = {2020},
pages = {3125–3132},
booktitle = {Proceedings of the 29th ACM International Conference on Information and Knowledge Management (CIKM '20)},
organization = {ACM},
}
```
---
许可证:GPL-3.0
任务类别:
- 图机器学习(graph-ml)
---
# Reddit讨论串数据集卡片
## 目录
- [目录](#table-of-contents)
- [数据集描述](#dataset-description)
- [数据集概述](#dataset-summary)
- [支持任务与基准榜单](#supported-tasks-and-leaderboards)
- [外部使用](#external-use)
- [PyTorch几何(PyGeometric)](#pygeometric)
- [数据集结构](#dataset-structure)
- [数据属性](#data-properties)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [附加信息](#additional-information)
- [许可信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献说明](#contributions)
## 数据集描述
- **[主页](https://snap.stanford.edu/data/reddit_threads.html)**
- **论文**:(详见引用信息)
### 数据集概述
本`Reddit讨论串`数据集收录了2018年5月采集自Reddit平台的讨论型与非讨论型讨论串。其中节点为参与讨论的Reddit用户,边代表用户之间的回复关系(引自数据集文档)。
### 支持任务与基准榜单
本数据集对应的任务为二分类任务,目标是预测某一讨论串是否为讨论型内容。
## 外部使用
### PyTorch几何(PyGeometric)
若需在PyTorch几何框架中加载该数据集,请执行以下代码:
python
from datasets import load_dataset
from torch_geometric.data import Data
from torch_geometric.loader import DataLoader
dataset_hf = load_dataset("graphs-datasets/<mydataset>")
# For the train set (replace by valid or test as needed)
dataset_pg_list = [Data(graph) for graph in dataset_hf["train"]]
dataset_pg = DataLoader(dataset_pg_list)
## 数据集结构
### 数据集信息
- 共203,088张图
### 数据字段
每个文件的每一行对应一张图,包含以下字段:
- `edge_index`(列表:2 × #边数):构成边的节点对
- `y`(列表:#标签数):包含待预测标签的总数
- `num_nodes`(整数):该图包含的节点总数量
### 数据划分
本数据集未进行预划分,建议通过交叉验证的方式开展模型训练。该数据集源自PyTorch几何(PyGeometric)版本的原始数据集。
## 附加信息
### 许可信息
本数据集采用GPL-3.0许可证发布。
### 引用信息
可参阅[GitHub仓库](https://github.com/benedekrozemberczki/karateclub)获取引用信息。
@inproceedings{karateclub,
title = {{Karate Club: An API Oriented Open-source Python Framework for Unsupervised Learning on Graphs}},
author = {Benedek Rozemberczki and Oliver Kiss and Rik Sarkar},
year = {2020},
pages = {3125–3132},
booktitle = {Proceedings of the 29th ACM International Conference on Information and Knowledge Management (CIKM '20)},
organization = {ACM},
}
提供机构:
graphs-datasets
原始信息汇总
数据集概述
数据集名称
- Reddit threads
数据集摘要
- 包含2018年5月收集的Reddit讨论和非讨论基础的线程。节点代表参与讨论的Reddit用户,链接代表用户之间的回复。
支持的任务和排行榜
- 主要任务是二元分类,预测线程是否为讨论基础。
数据集结构
数据属性
- 包含203,088个图。
数据字段
edge_index(list: 2 x #edges): 构成边的节点对列表。y(list: #labels): 可用于预测的标签数量列表。num_nodes(int): 图中的节点数量。
数据分割
- 数据未分割,建议使用交叉验证。
附加信息
许可信息
- 数据集根据GPL-3.0许可证发布。
引用信息
@inproceedings{karateclub, title = {{Karate Club: An API Oriented Open-source Python Framework for Unsupervised Learning on Graphs}}, author = {Benedek Rozemberczki and Oliver Kiss and Rik Sarkar}, year = {2020}, pages = {3125–3132}, booktitle = {Proceedings of the 29th ACM International Conference on Information and Knowledge Management (CIKM 20)}, organization = {ACM}, }
搜集汇总
数据集介绍

构建方式
在社交网络分析领域,Reddit线程数据集通过采集2018年5月期间Reddit平台上的用户互动数据构建而成。该数据集以图结构为基础,节点代表参与讨论的Reddit用户,边则表征用户间的回复关系。构建过程中,研究者从海量线程中提取了超过20万个独立图实例,每个图均包含完整的节点连接信息与标签标注,为后续的机器学习任务提供了结构化的数据基础。
特点
该数据集的核心特征在于其规模庞大且结构规范,涵盖20余万个独立图结构,每个图均包含明确的边索引、节点数量及分类标签。数据以图神经网络的标准格式呈现,支持直接导入PyTorch Geometric等主流框架。特别值得注意的是,数据集专注于讨论型与非讨论型线程的二元分类任务,为社交网络交互模式研究提供了精准的标注基准。
使用方法
使用该数据集时,研究者可通过HuggingFace的datasets库直接加载,并利用PyTorch Geometric的DataLoader进行批量处理。由于数据集未预设划分,建议采用交叉验证方法评估模型性能。典型应用流程包括:加载原始图数据、转换为PyG兼容格式、构建数据加载器,最终应用于图分类任务的训练与验证环节。
背景与挑战
背景概述
在社交网络分析领域,图结构数据为理解复杂交互模式提供了关键视角。Reddit threads数据集由斯坦福大学SNAP团队于2018年5月构建,收录了Reddit平台上的讨论与非讨论型线程。该数据集将参与讨论的用户抽象为节点,将用户间的回复关系建模为边,旨在通过图机器学习技术探究在线社区中对话结构的本质特征。其核心研究问题聚焦于区分讨论型与非讨论型线程的二元分类任务,为社交网络动态分析与社区检测研究提供了重要的基准数据,推动了图神经网络在社交计算领域的应用发展。
当前挑战
该数据集所针对的社交网络线程分类任务面临多重挑战:在线讨论的语义模糊性与结构多样性使得讨论型与非讨论型线程的边界难以清晰界定;图数据中节点属性的缺失限制了模型对用户行为深层特征的捕捉。在构建过程中,数据采集需克服Reddit平台API的访问限制与数据规模控制难题;原始文本到图结构的转换需要精确界定回复关系的边界,以避免噪声边的引入;同时,数据集的单任务设计也限制了其在多模态社交分析中的扩展应用。
常用场景
经典使用场景
在社交网络分析领域,Reddit threads数据集以其大规模、结构化的讨论线程图数据,为图机器学习任务提供了经典范例。该数据集常用于二元分类任务,即预测一个Reddit线程是否基于讨论,这要求模型从用户间的回复关系图中捕捉复杂的交互模式,从而区分讨论导向与非讨论导向的线程结构。
解决学术问题
该数据集有效解决了社交网络图中线程性质自动识别的学术难题,通过提供203,088个真实世界的用户交互图,支持研究者探索图神经网络在异质社交环境中的泛化能力。其意义在于推动了图分类方法的发展,帮助学术界理解在线讨论的动态形成机制,并为社区检测、信息传播建模等基础问题提供了实证基础。
衍生相关工作
基于该数据集,衍生了一系列经典研究工作,例如Karate Club框架的图无监督学习应用,该框架利用此类社交图数据进行社区发现和节点嵌入。此外,许多图神经网络模型如GCN和GAT也以此数据集为基准,验证其在大型异构图上的分类性能,进一步推动了图表示学习领域的算法创新与评估标准化。
以上内容由遇见数据集搜集并总结生成



