基于社会主义核心价值观的文本价值认证高质量数据集

Name: 基于社会主义核心价值观的文本价值认证高质量数据集
Creator: 北京大学
Published: 2026-03-03 00:00:00
License: 暂无描述

北京市数据知识产权2026-03-03 更新2026-03-06 收录

下载链接：

https://webs.bjidex.com/sys-bsc-home/#/bscConsole/intellectualProperty/infoPublicity?action=1

下载链接

链接失效反馈

官方服务：

资源简介：

1、应用范围：（1）训练以社会主义核心价值观为依据，对随机给定文本内容进行价值识别与认证的专用算法模型；（2）生成式人工智能的价值对齐训练，增强模型在内容生成与理解过程中的价值判断能力。 2、应用对象：党政部门、主流媒体、商业平台、科研院所等。 3、所能解决的主要问题：（1）解决信息内容平台在“内容审核”与“内容推荐”算法训练中缺乏专业标注样本的问题。本数据集为训练价值识别与认证算法提供了充足样本，可以解决目前信息内容平台因缺乏关于“正面”的标准，进而导致无法基于社会主义核心价值观，从海量UGC与PGC中精准识别优质内容并进行推荐分发的难题。（2）解决生成式人工智能模型在“价值观对齐”训练中缺乏高质量语料的问题。本数据集提供了基于社会主义核心价值观的结构化语料，能够作为RLHF的关键训练集，可以有效增强生成式人工智能模型在内容生成与理解过程中的价值判断能力。化解意识形态安全风险。（3）解决监管部门在评估网络空间生态时缺乏可量化指标的问题。本数据集为对平台网站（包括其中个人与机构账户）的信息内容生态进行测量提供了可量化的“参照物”，可以有效提升绩效评估的时效性、客观性与科学性。

提供机构：

北京大学

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集专注于基于社会主义核心价值观的文本价值认证，旨在训练算法模型进行价值识别与认证，并支持生成式人工智能的价值对齐训练。它适用于党政部门、主流媒体、商业平台和科研院所等对象，主要解决内容审核与推荐算法训练中缺乏专业样本、生成式AI价值观对齐语料不足以及网络生态评估量化指标缺失等问题，提供高质量结构化语料以增强价值判断能力和化解意识形态风险。

以上内容由遇见数据集搜集并总结生成