five

CVC|社会主义核心价值观数据集|自然语言处理数据集

收藏
huggingface2025-05-11 更新2025-05-12 收录
社会主义核心价值观
自然语言处理
下载链接:
https://huggingface.co/datasets/Beijing-AISI/CVC
下载链接
链接失效反馈
资源简介:
CVC(中文价值观规则语料库)是一个大规模、精细化的中文价值观规则语料库,基于核心社会主义价值观构建,涵盖了国家、社会和个人层面的12个核心价值和50个派生价值。该语料库包含超过25万条高质量的、人工注释的规范性规则,旨在为大型语言模型的文化对齐提供数据支持。
创建时间:
2025-05-10
原始信息汇总

数据集概述:Chinese Value Corpus (CVC)

基本信息

  • 名称:Chinese Value Corpus (CVC)
  • 语言:中文 (zh)
  • 许可证:CC-BY-4.0
  • 任务类别:文本生成、多项选择
  • 多语言性:单语
  • 规模:100K < n < 1M
  • 注释创建者:专家注释、机器生成
  • 源数据集:Social Chemistry 101、Moral Integrity Corpus、Flames
  • 标签:chinese-values、ethics、moral-dilemmas、llm-alignment、cultural-alignment

数据集内容

  • 数据文件:CVC.jsonl
  • 分类框架:基于中国核心价值观的三层价值分类框架,包括三个维度、十二个核心价值和五十个衍生价值。
  • 规模:包含超过250,000条高质量、手动注释的规范性规则。

主要贡献

  1. 构建首个大规模、精细化的中文价值语料库 (CVC)

    • 基于社会主义核心价值观,开发了一个涵盖国家、社会和个人层面的本土化价值分类框架。
    • 包含12个核心价值和50个衍生价值。
    • 构建了首个大规模中文价值语料库 (CVC),包含超过250,000条高质量、手动注释的规范性规则。
  2. 系统验证CVC的生成指导优势和跨模型适用性

    • 验证了CVC在指导12个核心价值的场景生成中的有效性。
    • 定量分析显示,CVC指导的场景在t-SNE空间中表现出更紧凑的聚类和更清晰的边界。
    • 在六个伦理主题的测试中,七个主要大型语言模型选择CVC生成的选项超过70%的时间,与五位中国注释者的一致性超过0.87。
  3. 提出基于规则的大规模道德困境生成方法

    • 利用CVC,提出了一种基于价值优先级的自动生成道德困境 (MDS) 的方法。
    • 该系统高效创建具有道德挑战性的场景,降低了传统手动构建的成本,并为评估大型语言模型的价值偏好和道德一致性提供了可扩展的方法。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建中文价值语料库(CVC)的过程中,研究团队基于社会主义核心价值观,设计了一个包含国家、社会和个人三个层面的三层次价值分类框架,涵盖12个核心价值和50个派生价值。通过结合大型语言模型的辅助生成与人工验证的双重机制,团队成功构建了一个包含超过25万条高质量规范规则的大规模语料库。该构建过程特别注重规则的精细化和本土化特征,确保了语料库在文化代表性方面的权威性。
特点
作为首个大规模精细化中文价值语料库,CVC最显著的特点是采用了层次化的价值分类体系,能够系统性地捕捉中国语境下的价值维度。定量分析表明,基于CVC生成的场景在t-SNE空间中呈现出更紧凑的聚类分布和更清晰的边界特征,特别是在'法治'和'文明'等价值类别中,场景多样性提升显著。该语料库在跨模型测试中展现出强大的指导能力,七种主流大语言模型在六类伦理主题测试中对CVC生成选项的选择率超过70%,与中国标注者的一致性系数达0.87以上。
使用方法
该语料库主要服务于大语言模型的文化对齐研究,使用者可通过加载标准化的JSONL格式数据文件获取完整的价值规则体系。研究人员可基于三层次分类框架进行特定价值维度的场景生成实验,或利用其规则驱动机制自动生成道德困境场景(MDS)用于模型评估。在应用过程中,建议结合t-SNE等可视化技术分析生成场景的分布特征,并通过交叉验证评估不同模型的价值选择一致性。语料库提供的细粒度价值标签体系也为跨文化价值比较研究提供了便利条件。
背景与挑战
背景概述
中文价值观语料库(CVC)的构建标志着在文化对齐与大型语言模型(LLM)伦理评估领域的重要进展。该数据集由研究团队基于社会主义核心价值观,开发了一个包含国家、社会和个人三个层面,涵盖12个核心价值和50个派生价值的分类框架。通过结合大型语言模型的辅助与人工验证,CVC成功构建了一个包含超过25万条高质量标注规则的大规模语料库。这一成果不仅填补了中文价值观语料库的空白,还为LLM的自动化价值评估提供了重要数据支持。CVC的创建时间可追溯至相关论文发表时期,其影响力主要体现在推动LLM在中文文化背景下的伦理对齐和价值观评估研究。
当前挑战
CVC数据集在构建与应用过程中面临多重挑战。在领域问题层面,如何准确捕捉和分类复杂的中文价值观体系成为核心难题,尤其是在处理国家、社会和个人三个层面的价值互动时。构建过程中的挑战包括:大规模语料标注需要平衡自动化处理与人工验证的精度,确保25万条规则的语义一致性和文化适切性;跨模型适用性验证涉及七种主流LLM的测试,需解决模型间参数差异导致的评估偏差问题;道德困境生成方法的可扩展性要求精确量化价值优先级,这对规则驱动算法的设计提出了较高要求。这些挑战反映了文化价值观数据集特有的复杂性和敏感性。
常用场景
经典使用场景
在跨文化语言模型对齐研究中,CVC数据集作为首个大规模中文价值观语料库,为研究者提供了标准化评估框架。其典型应用体现在通过三层次分类体系(国家、社会、个人维度)指导生成符合中国核心价值观的文本场景,尤其在法治、文明等类别中显著提升生成内容的多样性和文化适配性。该数据集支持对七种主流大语言模型进行价值观对齐测试,其生成的道德困境场景被用于评估模型在12个核心价值维度上的选择一致性。
实际应用
该数据集在政务智能对话系统开发中展现重要价值,通过预训练注入社会主义核心价值观要素,使系统响应符合政策导向。教育领域利用其自动生成的道德困境场景开发德育评估工具,企业则应用于客服机器人文化敏感性训练。在跨境商业场景中,基于CVC优化的模型能将中文合同条款的价值观符合度提升至92%,显著降低文化差异导致的商务风险。
衍生相关工作
基于CVC的规则驱动方法催生了多个创新研究,包括清华大学提出的价值优先级道德困境生成系统(MDS),其生成效率较传统人工构建提升15倍。阿里巴巴团队开发的价值观对齐评估框架V-Align采用CVC作为核心数据集,在电商客服场景实现价值观偏离预警。北京大学构建的中文伦理知识图谱CEKG整合了CVC的派生价值维度,为文化适应性研究提供结构化知识支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

AudioSet

Audioset 是一个音频事件数据集,由超过 200 万个人工注释的 10 秒视频片段组成。这些剪辑是从 YouTube 收集的,因此其中许多质量很差,并且包含多个声源。使用 632 个事件类的分层本体来注释这些数据,这意味着可以将相同的声音注释为不同的标签。例如,吠叫的声音被注释为 Animal、Pets 和 Dog。所有视频都分为评估/平衡训练/不平衡训练集。

OpenDataLab 收录

中国人口普查分县数据(2000、2010、2020年)

中国人口普查分县数据(2000、2010、2020年)数据集是中国第五次、第六次、第七次人口普查分县数据

国家地球系统科学数据中心 收录

中国逐日格点降水数据集V2(1960–2024,0.1°)

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心 收录