东方瑰宝全媒体传播资源数据集
收藏贵州省数据知识产权登记平台2026-01-28 更新2026-01-29 收录
下载链接:
https://gzdipp.gzsis.cn:12020/noticeDetail?id=2311&type=1
下载链接
链接失效反馈官方服务:
资源简介:
(一)数据清洗 1、格式转换:对于表格中的发布日期列,其数据类型为 object 类型 (字符串形式),使用pandas库的pd.to_datetime()函数将其转换为日期时间格式。 2、重复值处理:通过df.duplicated()函数检查数据中是否存在重复行。若存在,依据序号或其他关键列,保留首次出现的行,删除其余重复行。 3、缺失值检查:使用 df.isnull().sum()对全量数据进行检查。媒体单位等字符型列有缺失,用常见值或合理推测值填充。 (二)数据整合 后续不定期获取到来自其他渠道的东方瑰宝媒体宣传数据,如不同平台的报道数据。以媒体单位和发布日期作为关键匹配字段,使用pd.merge()函数将新数据与当前表格数据进行合并。若合并后情感倾向等列在不同数据源中有不同值 ,可根据数据源可信度取加权平均值。 (三)数据标注 情感细化标注:利用 BERT模型对文章标题进行更细致的情感分类标注。BERT 是一种基于Transformer架构的预训练语言模型,通过双向的自注意力机制充分学习文本的上下文信息。
提供机构:
东方瑰宝(北京)艺术品有限公司
创建时间:
2026-01-26
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个由东方瑰宝(北京)艺术品有限公司申请的文化艺术领域全媒体传播资源数据集,数据规模为90KB,来源于公开收集,无定期更新。它主要用于媒体宣传效果评估、媒体合作分析和舆情监测等场景,通过分析发布日期、情感倾向和媒体单位等指标来优化宣传策略和监测公众情绪。数据集在数据处理上采用了数据清洗、整合和基于BERT模型的情感标注技术,以支持精准的分析和应用。
以上内容由遇见数据集搜集并总结生成



