价值观量化评价数据集
收藏国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=67d50dbb195d260905af9718&type=1
下载链接
链接失效反馈官方服务:
资源简介:
价值观量化评价数据集主要面向主流价值观量化分析与模型训练研究需求建设,基于权威媒体和自媒体平台的新闻文本及短文本数据产生。
价值观量化评价数据根据数据的来源和用途可以分为3个子数据集,分别为:新闻文本共合计2.6万条数据,12万条句子粒度的短文本数据,用于量化讽刺类型的约8千条数据。
新闻文本数据集用于预测整体发帖文本(长度约几百字)的整体价值观的量化评估,包括预测文本主要涉及的价值观(七分类)以及价值观的正负极性(三分类),数据集来源为新浪、腾讯、澎湃三个国内新闻网站的新闻;微博、B站等平台上的自媒体。
句子粒度数据集用于预测新闻中单句(长度约十几到几十字不等)的价值观的量化评估,同样也包括句子涉及到的主要价值观(七分类)和价值观的正负极性(三分类),数据来源为融合量化整体新闻文本拆解而来。
量化讽刺数据集用于预测新闻评论区下用户评论(十几字)的讽刺识别,包括预测讽刺类别(四分类)以及是否为讽刺评论(二分类),数据来源主要为2023年1月至11月期间新浪微博下热点微博和利用ChatGPT相应扩增构造。
提供机构:
哈尔滨工业大学
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集旨在支持主流价值观量化分析与模型训练研究,包含新闻文本、句子粒度和量化讽刺三个子集,分别用于整体价值观评估、单句价值观评估和讽刺识别。数据来源于新浪、腾讯等新闻网站及微博、B站等自媒体平台,总计约2.6万条新闻、12万条句子和8千条讽刺数据。
以上内容由遇见数据集搜集并总结生成



