PoPreRo
收藏arXiv2024-07-05 更新2024-07-09 收录
下载链接:
https://github.com/ana-rogoz/PoPreRo
下载链接
链接失效反馈官方服务:
资源简介:
PoPreRo是由布加勒斯特大学创建的第一个用于预测罗马尼亚语Reddit帖子流行度的数据集。该数据集包含从五个不同的罗马尼亚子Reddit频道收集的28,107个样本,总计超过100万个tokens。数据集的创建过程包括使用Reddit API收集数据,进行语言识别和投票分数标准化等预处理步骤。PoPreRo数据集主要用于评估模型在预测社交媒体帖子流行度方面的性能,特别是在罗马尼亚语这一低资源语言环境下的应用。
PoPreRo is the first dataset developed by the University of Bucharest for predicting the popularity of Romanian-language Reddit posts. It contains 28,107 samples collected from five distinct Romanian subreddit channels, totaling over one million tokens. The dataset creation process includes data collection via the Reddit API, as well as preprocessing steps such as language identification and vote score normalization. The PoPreRo dataset is primarily used to evaluate model performance in predicting the popularity of social media posts, particularly for applications in low-resource language environments involving the Romanian language.
提供机构:
布加勒斯特大学
创建时间:
2024-07-05
原始信息汇总
PoPreRo: A New Dataset for Popularity Prediction of Romanian Reddit Posts (ICPR 2024)
数据集概述
PoPreRo是首个针对罗马尼亚Reddit帖子流行度预测的数据集。该数据集包含从五个不同罗马尼亚子版块收集的28,107个数据样本。
数据集性能
引入的基准模型在测试集上达到了61.35%的准确率和60.60%的宏F1分数,表明在PoPreRo上进行流行度预测任务非常具有挑战性。
许可证
数据集和代码发布在Creative Commons Attribution Non Commercial Share Alike 4.0许可下。
数据集结构
数据集分为训练集、验证集和测试集,具体分布如下:
| Unpopular | Unpopular | Popular | Popular | Total | Total | |
|---|---|---|---|---|---|---|
| Set | #posts | #tokens | #posts | #tokens | #posts | #tokens |
| Train (Romanian subreddit) | 12,053 | 398,219 | 11,592 | 560,580 | 23,645 | 958,799 |
| Validation (Bucuresti subreddit) | 1,059 | 75,742 | 1,054 | 80,297 | 2,113 | 156,039 |
| Test (Iasi, Timisoara, Cluj subreddit) | 1,177 | 72,819 | 1,172 | 93,268 | 2,349 | 168,867 |
使用方法
数据集无需安装特定环境依赖,但应在运行每个笔记本之前下载。训练和测试模型通过运行相应模型名称的笔记本进行。
可用模型
开发工具
- Pytorch - 深度学习库
- PytorchLightning - Pytorch框架
- HuggingfaceTransformers - 模型仓库
搜集汇总
数据集介绍

构建方式
PoPreRo数据集的构建方式是通过对五个不同的罗马尼亚Reddit子版块进行数据收集,这些子版块代表了罗马尼亚最大的城市或全国性的Reddit子版块。数据收集过程中,首先使用Reddit API进行初步的样本收集,但由于API的限制,无法获取所有必要的数据。因此,研究者转而使用一个开源档案来收集样本。所有数据都存储在单独的JSON文件中,每个子版块包含与确定帖子流行度相关的相关信息,如标题、内容、评论数量和上下投票数。数据收集后,进行了预处理,包括语言识别和投票分数的归一化,以及基于归一化分数的中位数值将帖子分为“流行”或“不流行”。
特点
PoPreRo数据集的特点是包含了从五个不同的罗马尼亚Reddit子版块收集的28,107个数据样本,总共有超过100万个标记。每个样本包括一个标题、一个内容和一个二进制标签,标题和内容被合并为一个文本。数据集被分为“流行”或“不流行”类别,基于每个帖子的投票总和,其中两个类别的阈值由中位数投票数(15)给出。为了进行一致的评价和与其他研究进行比较,数据集被分为训练、验证和测试集,并使用不同的子版块来确保模型不会利用对特定主题的知识。
使用方法
PoPreRo数据集的使用方法包括数据集的下载、预处理和模型训练。数据集可以从提供的链接下载,并且存储在JSON文件中,方便进行处理和分析。在模型训练之前,需要对数据进行预处理,包括语言识别、投票分数的归一化和标签的分配。可以使用不同的模型来进行流行度预测,包括深度学习模型、浅层或深度特征分类器以及大型语言模型。模型训练和评估可以使用标准的机器学习框架进行,如PyTorch或TensorFlow。
背景与挑战
背景概述
PoPreRo数据集的创建,填补了罗马尼亚语言在自然语言处理领域中的数据空白。由Ana-Cristina Rogoz、Maria Ilinca Nechita和Radu Tudor Ionescu领导的研究团队,收集了来自罗马尼亚五个不同subreddits的28,107个数据样本,旨在研究社交媒体帖子受欢迎程度的预测。这一研究不仅有助于理论上的进步,还在市场营销、公共卫生等多个领域有着实际应用。PoPreRo数据集的发布,为评估模型在预测罗马尼亚社交媒体帖子受欢迎程度方面的能力提供了一个宝贵的资源。
当前挑战
尽管PoPreRo数据集为研究罗马尼亚社交媒体帖子受欢迎程度的预测提供了宝贵的资源,但该领域仍面临诸多挑战。首先,如何准确捕捉幽默、讽刺等微妙线索,以理解影响受众的因素,是一个复杂的挑战。其次,Reddit的API限制数据访问,限制了历史数据的收集和检索。此外,Reddit在罗马尼亚的用户基础相对较小,可能无法代表更广泛的群体。这些挑战需要进一步的研究和探索,以提高预测模型在罗马尼亚语言环境下的准确性和可靠性。
常用场景
经典使用场景
PoPreRo数据集主要用于社交媒体平台上罗马尼亚语帖子的流行度预测。通过对来自五个不同罗马尼亚子版块的Reddit帖子进行分析,该数据集为研究人员提供了一个独特的窗口,以了解罗马尼亚语内容在社交媒体上的互动和流行趋势。数据集包含了28,107个数据样本,涵盖了各种主题和内容类型,为自然语言处理(NLP)研究提供了一个宝贵的资源。通过使用该数据集,研究人员可以开发、测试和比较不同的流行度预测模型,以更好地理解社交媒体内容如何与用户互动,以及哪些因素可以影响帖子的流行度。
实际应用
PoPreRo数据集的实际应用场景非常广泛。在社交媒体平台中,流行度预测对于内容推荐系统、舆情监测、广告投放等方面都具有重要意义。通过对PoPreRo数据集的分析,可以更好地了解罗马尼亚语用户在社交媒体上的行为和偏好,从而为相关应用提供更准确的决策支持。此外,该数据集还可以用于开发针对罗马尼亚语内容的流行度预测工具,帮助社交媒体平台和内容创作者更好地了解其受众,提高内容的互动和影响力。
衍生相关工作
PoPreRo数据集的引入衍生了许多相关的研究工作。研究人员利用该数据集开发了一系列的流行度预测模型,包括基于深度学习的Ro-GPT2和Ro-BERT模型,以及基于浅层特征的FastText+SVM和TF-IDF+RF模型。此外,PoPreRo数据集还被用于探索大型语言模型(LLM)在流行度预测任务上的应用,如基于Falcon-7B的少样本提示方法。这些相关研究工作不仅推动了流行度预测任务的进展,还为NLP研究在低资源语言环境中的应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



