CVC
收藏Hugging Face2025-05-11 更新2025-05-12 收录
下载链接:
https://huggingface.co/datasets/Beijing-AISI/CVC
下载链接
链接失效反馈官方服务:
资源简介:
CVC(中文价值观规则语料库)是一个大规模、精细化的中文价值观规则语料库,基于核心社会主义价值观构建,涵盖了国家、社会和个人层面的12个核心价值和50个派生价值。该语料库包含超过25万条高质量的、人工注释的规范性规则,旨在为大型语言模型的文化对齐提供数据支持。
CVC (Chinese Values Rule Corpus) is a large-scale and fine-grained Chinese values rule corpus constructed based on core socialist values. It covers 12 core values and 50 derived values at the national, societal, and individual levels. This corpus contains over 250,000 high-quality, manually annotated normative rules, and aims to provide data support for the cultural alignment of large language models (LLMs).
创建时间:
2025-05-10
原始信息汇总
数据集概述:Chinese Value Corpus (CVC)
基本信息
- 名称:Chinese Value Corpus (CVC)
- 语言:中文 (zh)
- 许可证:CC-BY-4.0
- 任务类别:文本生成、多项选择
- 多语言性:单语
- 规模:100K < n < 1M
- 注释创建者:专家注释、机器生成
- 源数据集:Social Chemistry 101、Moral Integrity Corpus、Flames
- 标签:chinese-values、ethics、moral-dilemmas、llm-alignment、cultural-alignment
数据集内容
- 数据文件:CVC.jsonl
- 分类框架:基于中国核心价值观的三层价值分类框架,包括三个维度、十二个核心价值和五十个衍生价值。
- 规模:包含超过250,000条高质量、手动注释的规范性规则。
主要贡献
-
构建首个大规模、精细化的中文价值语料库 (CVC):
- 基于社会主义核心价值观,开发了一个涵盖国家、社会和个人层面的本土化价值分类框架。
- 包含12个核心价值和50个衍生价值。
- 构建了首个大规模中文价值语料库 (CVC),包含超过250,000条高质量、手动注释的规范性规则。
-
系统验证CVC的生成指导优势和跨模型适用性:
- 验证了CVC在指导12个核心价值的场景生成中的有效性。
- 定量分析显示,CVC指导的场景在t-SNE空间中表现出更紧凑的聚类和更清晰的边界。
- 在六个伦理主题的测试中,七个主要大型语言模型选择CVC生成的选项超过70%的时间,与五位中国注释者的一致性超过0.87。
-
提出基于规则的大规模道德困境生成方法:
- 利用CVC,提出了一种基于价值优先级的自动生成道德困境 (MDS) 的方法。
- 该系统高效创建具有道德挑战性的场景,降低了传统手动构建的成本,并为评估大型语言模型的价值偏好和道德一致性提供了可扩展的方法。
搜集汇总
数据集介绍

构建方式
在构建中文价值语料库(CVC)的过程中,研究团队基于社会主义核心价值观,设计了一个包含国家、社会和个人三个层面的三层次价值分类框架,涵盖12个核心价值和50个派生价值。通过结合大型语言模型的辅助生成与人工验证的双重机制,团队成功构建了一个包含超过25万条高质量规范规则的大规模语料库。该构建过程特别注重规则的精细化和本土化特征,确保了语料库在文化代表性方面的权威性。
特点
作为首个大规模精细化中文价值语料库,CVC最显著的特点是采用了层次化的价值分类体系,能够系统性地捕捉中国语境下的价值维度。定量分析表明,基于CVC生成的场景在t-SNE空间中呈现出更紧凑的聚类分布和更清晰的边界特征,特别是在'法治'和'文明'等价值类别中,场景多样性提升显著。该语料库在跨模型测试中展现出强大的指导能力,七种主流大语言模型在六类伦理主题测试中对CVC生成选项的选择率超过70%,与中国标注者的一致性系数达0.87以上。
使用方法
该语料库主要服务于大语言模型的文化对齐研究,使用者可通过加载标准化的JSONL格式数据文件获取完整的价值规则体系。研究人员可基于三层次分类框架进行特定价值维度的场景生成实验,或利用其规则驱动机制自动生成道德困境场景(MDS)用于模型评估。在应用过程中,建议结合t-SNE等可视化技术分析生成场景的分布特征,并通过交叉验证评估不同模型的价值选择一致性。语料库提供的细粒度价值标签体系也为跨文化价值比较研究提供了便利条件。
背景与挑战
背景概述
中文价值观语料库(CVC)的构建标志着在文化对齐与大型语言模型(LLM)伦理评估领域的重要进展。该数据集由研究团队基于社会主义核心价值观,开发了一个包含国家、社会和个人三个层面,涵盖12个核心价值和50个派生价值的分类框架。通过结合大型语言模型的辅助与人工验证,CVC成功构建了一个包含超过25万条高质量标注规则的大规模语料库。这一成果不仅填补了中文价值观语料库的空白,还为LLM的自动化价值评估提供了重要数据支持。CVC的创建时间可追溯至相关论文发表时期,其影响力主要体现在推动LLM在中文文化背景下的伦理对齐和价值观评估研究。
当前挑战
CVC数据集在构建与应用过程中面临多重挑战。在领域问题层面,如何准确捕捉和分类复杂的中文价值观体系成为核心难题,尤其是在处理国家、社会和个人三个层面的价值互动时。构建过程中的挑战包括:大规模语料标注需要平衡自动化处理与人工验证的精度,确保25万条规则的语义一致性和文化适切性;跨模型适用性验证涉及七种主流LLM的测试,需解决模型间参数差异导致的评估偏差问题;道德困境生成方法的可扩展性要求精确量化价值优先级,这对规则驱动算法的设计提出了较高要求。这些挑战反映了文化价值观数据集特有的复杂性和敏感性。
常用场景
经典使用场景
在跨文化语言模型对齐研究中,CVC数据集作为首个大规模中文价值观语料库,为研究者提供了标准化评估框架。其典型应用体现在通过三层次分类体系(国家、社会、个人维度)指导生成符合中国核心价值观的文本场景,尤其在法治、文明等类别中显著提升生成内容的多样性和文化适配性。该数据集支持对七种主流大语言模型进行价值观对齐测试,其生成的道德困境场景被用于评估模型在12个核心价值维度上的选择一致性。
实际应用
该数据集在政务智能对话系统开发中展现重要价值,通过预训练注入社会主义核心价值观要素,使系统响应符合政策导向。教育领域利用其自动生成的道德困境场景开发德育评估工具,企业则应用于客服机器人文化敏感性训练。在跨境商业场景中,基于CVC优化的模型能将中文合同条款的价值观符合度提升至92%,显著降低文化差异导致的商务风险。
衍生相关工作
基于CVC的规则驱动方法催生了多个创新研究,包括清华大学提出的价值优先级道德困境生成系统(MDS),其生成效率较传统人工构建提升15倍。阿里巴巴团队开发的价值观对齐评估框架V-Align采用CVC作为核心数据集,在电商客服场景实现价值观偏离预警。北京大学构建的中文伦理知识图谱CEKG整合了CVC的派生价值维度,为文化适应性研究提供结构化知识支持。
以上内容由遇见数据集搜集并总结生成



