印度政治讨论Reddit数据集
收藏arXiv2025-03-05 更新2025-03-07 收录
下载链接:
https://drive.google.com/drive/folders/1L3nis3S-iiljLHVjvB5zaxxx-hkJufp6
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由国际信息研究所,海得拉巴大学创建,专注于印度政治语境,保留了政治讨论中争议性内容与非性争议内容的自然分布。数据集包含57,721条原始帖子,经过筛选后共有20,245条,其中12.9%为争议性帖子。数据集涵盖了7个关注印度政治的最热门Reddit子版块,反映了印度政治讨论的多样性。数据集适用于争议性内容检测,旨在解决在线政治讨论中的新兴叙事识别、意见泡沫分析和在线社区两极化评估等问题。
This dataset was developed by the International Institute of Information Technology and University of Hyderabad, focusing on the Indian political context. It preserves the natural distribution of both controversial and non-controversial content in political discussions. The dataset initially includes 57,721 original posts, and after a filtering process, 20,245 posts are retained, with 12.9% of them being controversial posts. It covers the seven most popular Reddit subreddits dedicated to Indian politics, reflecting the diversity of Indian political discourse. This dataset is designed for controversial content detection, and aims to tackle tasks including emerging narrative identification, echo chamber analysis, and online community polarization assessment in online political discussions.
提供机构:
国际信息研究所,海得拉巴大学
创建时间:
2025-03-05
搜集汇总
数据集介绍

构建方式
印度政治讨论Reddit数据集的构建旨在捕捉印度政治话语的动态。数据集从Reddit上7个最热门的印度政治相关子版块收集数据,涵盖了从2023年10月1日至2024年7月20日的10个月时间跨度。该数据集保留了原始的类别分布,其中只有12.9%的帖子被标记为有争议的,这反映了现实世界中政治讨论的真实不平衡性。数据集的构建过程包括收集帖子及其相关评论的丰富元数据,并根据帖子的“点赞率”来定义争议性,从而对帖子进行分类。此外,数据集还构建了用户之间的加权用户-用户交互图,并从中提取了静态和动态的图特征,包括文本内容、用户交互特征和拓扑数据分析特征。
特点
该数据集的特点在于其真实世界的类别不平衡性,这为评估争议检测方法的实际应用提供了重要的基准。数据集包含了丰富的元数据,如评论数、用户交互数、用户平均交互度等,以及文本内容特征,包括帖子和评论的SBERT嵌入。此外,数据集还包含了静态图特征,如用户交互图中的3-模式计数,以及动态图特征,如基于持久同伦的拓扑特征。这些特征共同为下游模型提供了多维度的政治话语信号。
使用方法
印度政治讨论Reddit数据集的使用方法包括对现有争议检测方法进行评估,并引入了新的度量指标——不平衡影响分数(I),以量化模型对类别不平衡性的鲁棒性。数据集可用于训练和测试各种机器学习模型,包括传统的分类器、自动编码器和图神经网络(GNN)。通过在平衡和不平衡的设置下测试模型,可以评估模型在不同条件下的性能。此外,数据集中的拓扑特征为研究争议检测提供了新的视角,有助于开发更可靠和鲁棒的争议检测系统。
背景与挑战
背景概述
印度政治讨论Reddit数据集是一个聚焦于印度政治背景下网络政治讨论中争议内容检测的数据集。该数据集由Arvindh Arun等人于2025年创建,旨在解决传统评估方法在现实世界政治讨论中存在的类不平衡问题。数据集收集自Reddit上关于印度政治的7个最受欢迎的子版块,涵盖了从2023年10月1日到2024年7月20日超过10个月的时间跨度。数据集包含了57,721条帖子,其中2,112条为争议性帖子,占总数的10.4%,反映了现实世界中争议性内容与非性争议性内容之间的真实不平衡。该数据集的创建对政治传播、社会动态研究以及社交媒体内容审查等领域具有重要意义。
当前挑战
印度政治讨论Reddit数据集的研究背景和构建过程中面临着诸多挑战。首先,该数据集解决的领域问题是争议性内容的检测,特别是在类不平衡的数据集上。现实世界中,争议性讨论相对较少,这导致传统的评估指标如准确率和F1分数偏向于多数类,从而难以准确检测争议性讨论。其次,构建过程中所遇到的挑战包括如何准确地定义争议性,以及如何从文本、用户交互和网络结构等多个维度提取有效的特征。此外,由于数据集的类不平衡,传统的机器学习模型在性能上表现出较大的波动,需要寻找更加鲁棒的模型和特征提取方法。为了解决这些挑战,研究人员引入了不平衡影响分数(I)这一指标,用于量化模型在面对类不平衡时的鲁棒性,并通过拓扑数据分析(TDA)方法提取了更加丰富的特征。这些研究成果为争议性内容检测领域提供了新的思路和方法,并促进了该领域的进一步发展。
常用场景
经典使用场景
该数据集主要用于检测网络政治讨论中的争议性内容。通过分析Reddit平台上关于印度政治的讨论,数据集可以帮助研究者识别具有对立观点的讨论,从而揭示网络上的叙事趋势、分析意见泡沫和评估网络社区的极化程度。
实际应用
该数据集的实际应用场景包括新闻组织、政治组织和社会媒体平台。新闻组织可以利用数据集来识别新兴叙事和评估公众情绪;政治组织可以更好地理解公众关注的问题并制定更有效的政策;社会媒体平台可以采用更细致的内容审核和用户参与策略,以促进更健康的公共讨论。
衍生相关工作
该数据集衍生了多项相关工作,包括对现有争议性内容检测方法的评估、引入新的拓扑特征和评估指标,以及使用图神经网络等方法进行实验。这些工作有助于推动争议性内容检测领域的发展,并为未来的研究提供了新的方向和思路。
以上内容由遇见数据集搜集并总结生成



