five

CVC (Chinese Values Corpus)|自然语言处理数据集|价值观评估数据集

收藏
arXiv2025-06-07 更新2025-06-05 收录
自然语言处理
价值观评估
下载链接:
https://huggingface.co/datasets/Beijing-AISI/CVC
下载链接
链接失效反馈
资源简介:
CVC是一个大规模的中文价值观语料库,旨在确保大型语言模型(LLMs)与主流人类价值观和伦理规范保持一致。该数据集基于中国核心价值观,包括国家、社会和个人三个维度,以及12个核心价值和50个衍生价值。CVC包含超过25万个经过人工标注和增强的价值规则,可以有效地指导价值评估场景的生成,在主题相关性、价值边界、内容多样性和语义清晰度方面显示出显著的优势。此外,CVC还支持自动构建大规模的道德困境场景,系统地避免偏见,同时捕捉冲突价值之间的权衡。
提供机构:
中国科学院自动化研究所,中国科学院大学,北京人工智能安全与治理研究院,长期人工智能实验室
创建时间:
2025-06-02
原始信息汇总

中文价值语料库(CVC)数据集概述

数据集基本信息

  • 名称: Chinese Value Corpus (CVC)
  • 语言: 中文(zh)
  • 许可协议: CC-BY-4.0
  • 任务类别: 文本生成、多项选择
  • 多语言性: 单语
  • 规模: 100K < n < 1M
  • 注释创建者: 专家注释、机器生成
  • 源数据集: Social Chemistry 101、Moral Integrity Corpus、Flames
  • 标签: 中文价值观、伦理、道德困境、LLM对齐、文化对齐

数据集内容

  • 数据文件: CVC.jsonl
  • 分类框架: 基于中国核心价值观的三层价值分类框架,包括三个维度、十二个核心价值和五十个衍生价值。
  • 规模: 包含超过250,000条高质量、手动注释的规范性规则。

主要贡献

  1. 构建首个大规模、精细化的中文价值语料库(CVC):

    • 基于社会主义核心价值观,开发了一个涵盖国家、社会和个人层面的本土化价值分类框架。
    • 包含12个核心价值和50个衍生价值。
  2. 系统验证CVC的生成指导优势和跨模型适用性:

    • 验证了CVC在指导12个核心价值的场景生成中的有效性。
    • 定量分析显示,CVC指导的场景在t-SNE空间中表现出更紧凑的聚类和更清晰的边界。
    • 在六个伦理主题的测试中,七个主要LLM选择CVC生成选项的比例超过70%。
  3. 提出基于规则的大规模道德困境生成方法:

    • 利用CVC提出了一种基于价值优先级的自动生成道德困境(MDS)的方法。
    • 该系统高效创建具有道德挑战性的场景,降低了传统手工构建的成本。

应用场景

  • 为大规模和自动化价值评估提供数据支持。
  • 评估大型语言模型的价值偏好和道德一致性。
AI搜集汇总
数据集介绍
main_image_url
构建方式
CVC(Chinese Values Corpus)数据集的构建基于一个层次化的中国核心价值观框架,该框架涵盖国家、社会和个人三个维度,包含12个核心价值和50个派生价值。数据来源包括精选的国际规则语料库(如SC101和MIC)以及中国本土文化背景下的价值规则。通过人工标注和大型语言模型(如Qwen2.5-72B)的辅助,对规则进行筛选、去重和标准化处理,最终构建了一个包含超过25万条高质量规则的大规模语料库。
特点
CVC数据集具有鲜明的文化适应性和系统性。它不仅全面覆盖了中国核心价值观的各个维度,还通过多层次的价值分类和详细的规则描述,提供了丰富的语义标签。数据集在主题相关性、价值边界和内容多样性方面表现出色,特别适用于评估和指导大型语言模型在中国文化背景下的价值对齐。此外,CVC还支持自动生成复杂的道德困境场景,为研究价值冲突提供了有力工具。
使用方法
CVC数据集可用于指导大型语言模型生成符合中国价值观的评估场景。用户可以通过提供价值名称和对应规则作为输入提示,生成具有明确价值导向的多样化场景。此外,CVC还可用于构建道德困境任务,通过规则驱动的自动化方法生成大规模的价值冲突场景。数据集的所有规则均经过人工标注和质量控制,确保了其在中国文化背景下的准确性和适用性。
背景与挑战
背景概述
CVC(Chinese Values Corpus)是由中国科学院自动化研究所等机构的研究团队于2025年创建的大规模中文价值观语料库,旨在解决大型语言模型(LLMs)与主流人类价值观及伦理规范对齐的问题。该语料库基于中国核心价值观构建了一个层次化的价值观框架,涵盖国家、社会和个人三个维度,包含12个核心价值和50个派生价值,共收录超过25万条经过人工标注的价值规则。CVC的建立填补了现有价值观评估基准在文化适应性和方法论通用性上的空白,特别针对非西方社会文化背景下的模型行为评估提供了重要资源。
当前挑战
CVC面临的挑战主要包括两个方面:1)领域问题挑战:现有价值观评估基准主要基于西方道德理论构建,存在文化偏见和不完整的本土化框架,难以全面捕捉中国文化背景下的价值表达和道德推理;2)构建过程挑战:在语料构建过程中需解决国际规则库的文化适应性过滤、中文价值规则的系统性提取,以及通过人工标注确保价值对齐的准确性等难题。此外,如何实现规则驱动的大规模道德困境场景生成,并客观捕捉不同LLMs在冲突价值优先级的细微差异,也是该数据集面临的重要技术挑战。
常用场景
经典使用场景
在自然语言处理领域,CVC数据集被广泛应用于评估大型语言模型(LLMs)与中国主流价值观的对齐程度。通过构建包含25万条价值规则的大规模语料库,CVC为生成具有明确价值边界的评估场景提供了系统化框架,特别适用于测试模型在敏感主题(如代孕、自杀等)上的道德推理能力。该数据集通过分层价值体系(国家、社会、个人三个维度)引导生成的场景,在语义清晰度和内容多样性上显著优于无引导的生成方法。
衍生相关工作
基于CVC的衍生研究包括:1)价值对齐增强框架VAL-CN,通过规则蒸馏提升模型本土化表现;2)跨文化道德图谱CMap,对比分析中西方模型在50个派生价值维度上的差异;3)动态价值追踪系统DVT,利用语料库监测LLMs价值观漂移现象。这些工作发表在ACL、EMNLP等顶会上,其中Qwen团队采用CVC优化的模型在AlignBench中文对齐评测中提升12.3%的合规性分数。
数据集最近研究
最新研究方向
近年来,随着大语言模型(LLMs)在各领域的广泛应用,如何确保其输出与主流人类价值观和伦理规范对齐成为人工智能安全与可持续发展的重要议题。CVC(Chinese Values Corpus)作为首个基于中国核心价值观构建的大规模中文价值观语料库,为LLMs的价值对齐研究提供了重要资源。该数据集的最新研究方向主要集中在以下几个方面:首先,基于分层价值框架(涵盖国家、社会和个人三个维度,12个核心价值和50个派生价值),CVC通过人工标注增强了超过25万条价值规则,显著提升了生成场景的主题相关性和内容多样性。其次,在跨文化价值对齐方面,CVC在六个敏感主题(如代孕、自杀等)的评估中,七种主流LLMs对CVC生成选项的偏好率超过70.5%,而五位中文人类标注者与CVC的一致性达到87.5%,验证了其在中国文化背景下的普适性和代表性。此外,CVC还支持基于规则的道德困境场景自动生成,通过40万条冲突价值优先级的困境构建,为LLMs的价值偏好研究提供了可扩展的评估框架。这些研究不仅填补了现有基准在非西方文化语境下的空白,也为全球化背景下的人工智能伦理评估提供了新的方法论支持。
相关研究论文
  • 1
    CVC: A Large-Scale Chinese Value Rule Corpus for Value Alignment of Large Language Models中国科学院自动化研究所脑认知与智能系统实验室 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Global Volcanism Program (GVP)

该数据集包含了全球火山活动的详细信息,包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。

volcano.si.edu 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录

eming/stock_price_trunked_128_12

该数据集包含股票交易相关的详细信息,如交易日期、收盘价、不同周期的移动平均线(MA3, MA5, MA10, MA20, MA60)、MACD指标、股票代码、预测值及预测日期。数据集分为训练集,共有121379个样本,总大小为1126032983字节。

hugging_face 收录