sg_news_popularity_classification

Hugging Face2026-02-01 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/zhang-qilong/sg_news_popularity_classification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含3000个训练样本，每个样本包含以下字段：标题（headline，字符串类型）、副标题（subhead，字符串类型）、导语（lead，字符串类型）、标签（label，整型）和来源（source，字符串类型）。数据集总大小为997225字节，下载大小为617878字节。数据以训练集（train）形式组织，但未提供关于数据集背景、目的或具体应用场景的描述信息。

创建时间：

2026-01-29

原始信息汇总

数据集概述

基本信息

数据集名称: zhang-qilong/sg_news_popularity_classification
来源平台: Hugging Face Datasets

数据集内容与结构

数据特征:
- headline: 标题，字符串类型。
- subhead: 副标题，字符串类型。
- lead: 导语，字符串类型。
- label: 标签，64位整数类型。
- source: 来源，字符串类型。
数据划分:
- 仅包含一个划分：train（训练集）。
- 训练集样本数量：3000条。
数据规模:
- 数据集总大小：997,225字节。
- 下载文件大小：617,878字节。

配置与访问

默认配置名称: default。
数据文件路径: data/train-*。

搜集汇总

数据集介绍

构建方式

在新闻媒体分析领域，sg_news_popularity_classification数据集通过系统化的数据采集与标注流程构建而成。该数据集从多个新加坡新闻来源中提取了3000条新闻条目，每条记录包含标题、副标题和导语等结构化文本特征，并辅以人工或算法生成的流行度分类标签。数据构建过程注重来源的多样性与内容的代表性，确保了样本在主题和时间分布上的平衡，为研究新闻传播与读者互动提供了扎实的基础。

使用方法

使用sg_news_popularity_classification数据集时，研究人员可将其加载至常见的机器学习框架中，利用文本特征进行新闻流行度的分类模型训练。数据集已预先划分为训练集，可直接用于模型开发与评估，支持从简单的特征提取到复杂的深度学习方法的实验。通过结合标题、副标题和导语等多维度信息，用户可以深入探索新闻内容与受众反馈之间的关联，推动媒体分析与预测建模的进展。

背景与挑战

背景概述

在数字媒体与自然语言处理交叉领域，新闻内容流行度预测已成为一项关键任务，旨在通过分析文本特征来评估新闻文章的潜在传播影响力。sg_news_popularity_classification数据集应运而生，其创建时间与具体研究人员或机构虽未在提供信息中明确，但该数据集聚焦于新闻标题、副标题及导语等结构化文本元素，核心研究问题在于探索这些元素如何共同作用于新闻流行度的分类。这一数据集为媒体分析、舆情监测及个性化推荐系统提供了实证基础，推动了文本挖掘与社交传播研究的深度融合。

当前挑战

该数据集所解决的领域问题在于新闻流行度分类，其挑战体现在文本特征的稀疏性与语义复杂性上：新闻标题和导语往往包含隐含的情感倾向或文化语境，传统模型难以准确捕捉其与流行度之间的非线性关联。构建过程中，挑战主要源于数据收集与标注的可靠性，例如需要确保新闻来源的多样性以避免偏见，同时人工标注流行度标签时可能受主观因素影响，导致类别分布不均衡或噪声干扰，这些因素共同增加了模型泛化与鲁棒性提升的难度。

常用场景

解决学术问题

该数据集有效解决了新闻传播学与计算社会科学中的核心问题，即如何量化并预测新闻内容的流行趋势。通过提供标注数据，它支持了基于内容的流行度分析，帮助学者突破传统依赖社交指标（如点击量、分享数）的局限，转而从文本语义层面挖掘影响传播的关键因素。这不仅深化了对信息扩散机制的理解，还为自动化内容优化和舆情监测提供了理论基础，推动了跨学科研究方法的发展。

实际应用

在实际应用中，sg_news_popularity_classification数据集被媒体机构和内容平台用于增强新闻推荐系统的智能化水平。通过训练模型预测新闻的潜在流行度，平台能够优先推送更可能吸引读者的内容，从而提升用户参与度和传播效率。此外，该数据集辅助编辑团队进行内容策略调整，优化标题和导语的撰写，以更好地适应受众偏好，在信息过载的时代实现精准传播。

数据集最近研究