liaad/newspop

Name: liaad/newspop
Creator: liaad
Published: 2024-01-18 11:10:29
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/liaad/newspop

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为News Popularity in Multiple Social Media Platforms，主要包含在Facebook、Google+和LinkedIn上分享的10万条新闻数据，涉及的主题包括经济、微软、奥巴马和巴勒斯坦。数据集用于预测新闻在社交媒体上的流行度或分享次数。数据集的创建是通过收集社交媒体API端点的分享或点赞数来完成的，数据字段包括新闻的ID、标题、头条、来源、主题、发布日期以及在三个社交媒体平台上的分享次数。数据集的语言为英语，许可证为CC-BY 4.0。

提供机构：

liaad

原始信息汇总

数据集概述

数据集名称

名称: News Popularity in Multiple Social Media Platforms

数据集特征

语言: 英语 (en)
许可证: Creative Commons Attribution 4.0 International License (CC-BY-4.0)
多语言性: 单语种
大小: 10K<n<100K
来源: 原始数据
任务类别: 文本分类
任务ID: 文本评分
标签: 社交媒体分享预测

数据集结构

特征:
- id: 整数类型 (int32)
- title: 字符串类型 (string)
- headline: 字符串类型 (string)
- source: 字符串类型 (string)
- topic: 字符串类型 (string)
- publish_date: 字符串类型 (string)
- facebook: 整数类型 (int32)
- google_plus: 整数类型 (int32)
- linked_in: 整数类型 (int32)
数据分割:
- 训练集: 93239个实例，总大小27927641字节

数据集创建

语言创建者: 发现
注释创建者: 众包
源数据: 新闻标题由记者撰写，标题由社交媒体分享者撰写
注释: 社交媒体分享和点赞数
注释者: 社交媒体用户

许可证信息

许可证: Creative Commons Attribution 4.0 International License (CC-BY)

引用信息

@article{Moniz2018MultiSourceSF, title={Multi-Source Social Feedback of Online News Feeds}, author={N. Moniz and L. Torgo}, journal={ArXiv}, year={2018}, volume={abs/1801.07055} }

搜集汇总

数据集介绍

构建方式

该数据集通过众包方式收集，原始数据来源于新闻文章的标题和社交媒体上的分享信息。数据集包含了100,000条新闻的分享数据，涵盖了经济、微软、奥巴马和巴勒斯坦四个主题。构建过程中，新闻标题由记者撰写，而社交媒体上的分享标题则由用户生成。数据集通过API接口收集了Facebook、Google+和LinkedIn上的分享和点赞数量，这些数据作为注释信息被整合到数据集中。

使用方法

该数据集适用于多种自然语言处理任务，特别是文本分类和社交分享预测。用户可以通过分析新闻标题和社交媒体分享数据，预测新闻在不同平台上的受欢迎程度。数据集的结构清晰，包含新闻的唯一标识符、标题、来源、发布日期以及各平台的分享数量。使用时，用户可以根据需要选择不同的字段进行分析，利用机器学习模型对新闻的社交媒体影响力进行建模和预测。

背景与挑战

背景概述

在社交媒体日益成为信息传播重要渠道的背景下，新闻内容的流行度预测成为一个关键的研究领域。'liaad/newspop'数据集由N. Moniz和L. Torgo于2018年创建，旨在通过收集和分析Facebook、Google+和LinkedIn等平台上新闻文章的分享数据，来预测新闻的流行度。该数据集包含了超过93,000条新闻记录，涵盖了经济、微软、奥巴马和巴勒斯坦等四个主要话题。通过这些数据，研究人员可以探索社交媒体对新闻传播的影响，并为新闻推荐系统提供数据支持。

当前挑战

尽管'liaad/newspop'数据集为新闻流行度预测提供了丰富的数据资源，但其构建过程中仍面临若干挑战。首先，数据收集依赖于社交媒体平台的API，这些API的限制和变化可能影响数据的完整性和准确性。其次，新闻内容的多样性和社交媒体用户的偏好差异，使得流行度预测模型的构建变得复杂。此外，数据集中未包含用户个人信息，这虽然保护了用户隐私，但也限制了对用户行为更深层次的分析。最后，数据集的标注仅依赖于简单的分享和点赞数量，缺乏更细致的用户互动数据，这可能影响模型的预测精度。

常用场景

经典使用场景

在新闻传播领域，liaad/newspop数据集被广泛用于预测新闻在多个社交媒体平台上的受欢迎程度。通过分析新闻标题、来源、发布日期以及各平台的分享数据，研究者能够构建模型，预测新闻在Facebook、Google+和LinkedIn等平台上的传播效果。这一应用场景不仅有助于新闻机构优化内容策略，还能为社交媒体营销提供数据支持。

解决学术问题

该数据集解决了新闻传播研究中关于社交媒体影响力预测的关键问题。通过量化新闻在不同平台上的分享和点赞数据，研究者能够深入探讨新闻内容与社交媒体互动之间的复杂关系。这不仅有助于理解社交媒体对新闻传播的放大效应，还为预测新闻的长期影响力提供了科学依据，推动了新闻传播理论的发展。

实际应用

在实际应用中，liaad/newspop数据集被新闻机构和社交媒体营销公司广泛采用。新闻机构利用该数据集优化新闻发布策略，提升新闻的社交媒体曝光率；社交媒体营销公司则通过分析数据，为客户制定更有效的内容推广方案。此外，该数据集还被用于社交媒体平台的算法优化，以提升用户体验和平台活跃度。

数据集最近研究