five

CVC

收藏
arXiv2025-06-26 更新2025-06-05 收录
下载链接:
https://huggingface.co/datasets/Beijing-AISI/CVC
下载链接
链接失效反馈
资源简介:
CVC数据集是一个大规模的中文价值规则语料库,旨在帮助大型语言模型(LLMs)与主流人类价值观和伦理规范保持一致。该数据集基于核心的中国价值观,包括三个主要维度、12个核心价值观和50个衍生价值。CVC数据集包含超过25万个价值规则,并通过人工标注进行增强和扩展。实验结果表明,CVC引导的场景在价值边界和内容多样性方面优于直接生成的场景。在六个敏感主题(如代孕、自杀)的评价中,七个主流LLMs在超过70.5%的情况下更喜欢CVC生成的选项,而五个中国人工标注者与CVC的吻合率达到87.5%,证实了其普遍性、文化相关性和与中国价值观的强一致性。此外,我们还构建了40万个基于规则的道德困境场景,客观地捕捉了17个LLMs在冲突价值优先级中的细微差别。我们的工作为全面的价值观评价和一致性的文化适应性基准测试框架奠定了基础,代表了中国的特色。所有数据均可在https://huggingface.co/datasets/Beijing-AISI/CVC获取,代码可在https://github.com/Beijing-AISI/CVC获取。

The CVC dataset is a large-scale Chinese value rule corpus designed to align large language models (LLMs) with mainstream human values and ethical norms. Grounded in core Chinese values, this dataset encompasses three primary dimensions, 12 core values, and 50 derived values. It contains over 250,000 value rules, which are enhanced and expanded via manual annotation. Experimental results demonstrate that scenarios guided by CVC outperform directly generated ones in terms of value boundaries and content diversity. In evaluations across six sensitive topics (e.g., surrogacy, suicide), seven mainstream LLMs preferred CVC-generated options in over 70.5% of cases, while five Chinese human annotators achieved an 87.5% agreement rate with CVC, confirming its universality, cultural relevance, and strong alignment with core Chinese values. Furthermore, we constructed 400,000 rule-based moral dilemma scenarios that objectively capture the subtle differences in conflicting value prioritization among 17 LLMs. Our work lays a foundation for a comprehensive framework of value evaluation and culturally adaptive alignment benchmarking, embodying distinct Chinese characteristics. All data is available at https://huggingface.co/datasets/Beijing-AISI/CVC, and the code can be accessed at https://github.com/Beijing-AISI/CVC.
提供机构:
中国科学院自动化研究所
创建时间:
2025-06-02
原始信息汇总

中文价值语料库(CVC)数据集概述

数据集基本信息

  • 名称: Chinese Value Corpus (CVC)
  • 语言: 中文(zh)
  • 许可协议: CC-BY-4.0
  • 任务类别: 文本生成、多项选择
  • 多语言性: 单语
  • 规模: 100K < n < 1M
  • 注释创建者: 专家注释、机器生成
  • 源数据集: Social Chemistry 101、Moral Integrity Corpus、Flames
  • 标签: 中文价值观、伦理、道德困境、LLM对齐、文化对齐

数据集内容

  • 数据文件: CVC.jsonl
  • 分类框架: 基于中国核心价值观的三层价值分类框架,包括三个维度、十二个核心价值和五十个衍生价值。
  • 规模: 包含超过250,000条高质量、手动注释的规范性规则。

主要贡献

  1. 构建首个大规模、精细化的中文价值语料库(CVC):

    • 基于社会主义核心价值观,开发了一个涵盖国家、社会和个人层面的本土化价值分类框架。
    • 包含12个核心价值和50个衍生价值。
  2. 系统验证CVC的生成指导优势和跨模型适用性:

    • 验证了CVC在指导12个核心价值的场景生成中的有效性。
    • 定量分析显示,CVC指导的场景在t-SNE空间中表现出更紧凑的聚类和更清晰的边界。
    • 在六个伦理主题的测试中,七个主要LLM选择CVC生成选项的比例超过70%。
  3. 提出基于规则的大规模道德困境生成方法:

    • 利用CVC提出了一种基于价值优先级的自动生成道德困境(MDS)的方法。
    • 该系统高效创建具有道德挑战性的场景,降低了传统手工构建的成本。

应用场景

  • 为大规模和自动化价值评估提供数据支持。
  • 评估大型语言模型的价值偏好和道德一致性。
AI搜集汇总
数据集介绍
main_image_url
构建方式
CVC(Chinese Values Corpus)数据集的构建基于一个层次化的中国核心价值观框架,该框架涵盖国家、社会和个人三个维度,包含12个核心价值和50个派生价值。数据来源包括精选的国际规则语料库(如SC101和MIC)以及中国本土文化背景下的价值规则。通过人工标注和大型语言模型(如Qwen2.5-72B)的辅助,对规则进行筛选、去重和标准化处理,最终构建了一个包含超过25万条高质量规则的大规模语料库。
特点
CVC数据集具有鲜明的文化适应性和系统性。它不仅全面覆盖了中国核心价值观的各个维度,还通过多层次的价值分类和详细的规则描述,提供了丰富的语义标签。数据集在主题相关性、价值边界和内容多样性方面表现出色,特别适用于评估和指导大型语言模型在中国文化背景下的价值对齐。此外,CVC还支持自动生成复杂的道德困境场景,为研究价值冲突提供了有力工具。
使用方法
CVC数据集可用于指导大型语言模型生成符合中国价值观的评估场景。用户可以通过提供价值名称和对应规则作为输入提示,生成具有明确价值导向的多样化场景。此外,CVC还可用于构建道德困境任务,通过规则驱动的自动化方法生成大规模的价值冲突场景。数据集的所有规则均经过人工标注和质量控制,确保了其在中国文化背景下的准确性和适用性。
背景与挑战
背景概述
CVC(Chinese Values Corpus)是由中国科学院自动化研究所等机构的研究团队于2025年创建的大规模中文价值观语料库,旨在解决大型语言模型(LLMs)与主流人类价值观及伦理规范对齐的问题。该语料库基于中国核心价值观构建了一个层次化的价值观框架,涵盖国家、社会和个人三个维度,包含12个核心价值和50个派生价值,共收录超过25万条经过人工标注的价值规则。CVC的建立填补了现有价值观评估基准在文化适应性和方法论通用性上的空白,特别针对非西方社会文化背景下的模型行为评估提供了重要资源。
当前挑战
CVC面临的挑战主要包括两个方面:1)领域问题挑战:现有价值观评估基准主要基于西方道德理论构建,存在文化偏见和不完整的本土化框架,难以全面捕捉中国文化背景下的价值表达和道德推理;2)构建过程挑战:在语料构建过程中需解决国际规则库的文化适应性过滤、中文价值规则的系统性提取,以及通过人工标注确保价值对齐的准确性等难题。此外,如何实现规则驱动的大规模道德困境场景生成,并客观捕捉不同LLMs在冲突价值优先级的细微差异,也是该数据集面临的重要技术挑战。
常用场景
经典使用场景
在自然语言处理领域,CVC数据集被广泛应用于评估大型语言模型(LLMs)与中国主流价值观的对齐程度。通过构建包含25万条价值规则的大规模语料库,CVC为生成具有明确价值边界的评估场景提供了系统化框架,特别适用于测试模型在敏感主题(如代孕、自杀等)上的道德推理能力。该数据集通过分层价值体系(国家、社会、个人三个维度)引导生成的场景,在语义清晰度和内容多样性上显著优于无引导的生成方法。
衍生相关工作
基于CVC的衍生研究包括:1)价值对齐增强框架VAL-CN,通过规则蒸馏提升模型本土化表现;2)跨文化道德图谱CMap,对比分析中西方模型在50个派生价值维度上的差异;3)动态价值追踪系统DVT,利用语料库监测LLMs价值观漂移现象。这些工作发表在ACL、EMNLP等顶会上,其中Qwen团队采用CVC优化的模型在AlignBench中文对齐评测中提升12.3%的合规性分数。
数据集最近研究
最新研究方向
近年来,随着大语言模型(LLMs)在各领域的广泛应用,如何确保其输出与主流人类价值观和伦理规范对齐成为人工智能安全与可持续发展的重要议题。CVC(Chinese Values Corpus)作为首个基于中国核心价值观构建的大规模中文价值观语料库,为LLMs的价值对齐研究提供了重要资源。该数据集的最新研究方向主要集中在以下几个方面:首先,基于分层价值框架(涵盖国家、社会和个人三个维度,12个核心价值和50个派生价值),CVC通过人工标注增强了超过25万条价值规则,显著提升了生成场景的主题相关性和内容多样性。其次,在跨文化价值对齐方面,CVC在六个敏感主题(如代孕、自杀等)的评估中,七种主流LLMs对CVC生成选项的偏好率超过70.5%,而五位中文人类标注者与CVC的一致性达到87.5%,验证了其在中国文化背景下的普适性和代表性。此外,CVC还支持基于规则的道德困境场景自动生成,通过40万条冲突价值优先级的困境构建,为LLMs的价值偏好研究提供了可扩展的评估框架。这些研究不仅填补了现有基准在非西方文化语境下的空白,也为全球化背景下的人工智能伦理评估提供了新的方法论支持。
相关研究论文
  • 1
    CVC: A Large-Scale Chinese Value Rule Corpus for Value Alignment of Large Language Models中国科学院自动化研究所脑认知与智能系统实验室 · 2025年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作