five

CVC|自然语言处理数据集|价值观评估数据集

收藏
arXiv2025-06-26 更新2025-06-05 收录
自然语言处理
价值观评估
下载链接:
https://huggingface.co/datasets/Beijing-AISI/CVC
下载链接
链接失效反馈
资源简介:
CVC数据集是一个大规模的中文价值规则语料库,旨在帮助大型语言模型(LLMs)与主流人类价值观和伦理规范保持一致。该数据集基于核心的中国价值观,包括三个主要维度、12个核心价值观和50个衍生价值。CVC数据集包含超过25万个价值规则,并通过人工标注进行增强和扩展。实验结果表明,CVC引导的场景在价值边界和内容多样性方面优于直接生成的场景。在六个敏感主题(如代孕、自杀)的评价中,七个主流LLMs在超过70.5%的情况下更喜欢CVC生成的选项,而五个中国人工标注者与CVC的吻合率达到87.5%,证实了其普遍性、文化相关性和与中国价值观的强一致性。此外,我们还构建了40万个基于规则的道德困境场景,客观地捕捉了17个LLMs在冲突价值优先级中的细微差别。我们的工作为全面的价值观评价和一致性的文化适应性基准测试框架奠定了基础,代表了中国的特色。所有数据均可在https://huggingface.co/datasets/Beijing-AISI/CVC获取,代码可在https://github.com/Beijing-AISI/CVC获取。
提供机构:
中国科学院自动化研究所
创建时间:
2025-06-02
原始信息汇总

中文价值语料库(CVC)数据集概述

数据集基本信息

  • 名称: Chinese Value Corpus (CVC)
  • 语言: 中文(zh)
  • 许可协议: CC-BY-4.0
  • 任务类别: 文本生成、多项选择
  • 多语言性: 单语
  • 规模: 100K < n < 1M
  • 注释创建者: 专家注释、机器生成
  • 源数据集: Social Chemistry 101、Moral Integrity Corpus、Flames
  • 标签: 中文价值观、伦理、道德困境、LLM对齐、文化对齐

数据集内容

  • 数据文件: CVC.jsonl
  • 分类框架: 基于中国核心价值观的三层价值分类框架,包括三个维度、十二个核心价值和五十个衍生价值。
  • 规模: 包含超过250,000条高质量、手动注释的规范性规则。

主要贡献

  1. 构建首个大规模、精细化的中文价值语料库(CVC):

    • 基于社会主义核心价值观,开发了一个涵盖国家、社会和个人层面的本土化价值分类框架。
    • 包含12个核心价值和50个衍生价值。
  2. 系统验证CVC的生成指导优势和跨模型适用性:

    • 验证了CVC在指导12个核心价值的场景生成中的有效性。
    • 定量分析显示,CVC指导的场景在t-SNE空间中表现出更紧凑的聚类和更清晰的边界。
    • 在六个伦理主题的测试中,七个主要LLM选择CVC生成选项的比例超过70%。
  3. 提出基于规则的大规模道德困境生成方法:

    • 利用CVC提出了一种基于价值优先级的自动生成道德困境(MDS)的方法。
    • 该系统高效创建具有道德挑战性的场景,降低了传统手工构建的成本。

应用场景

  • 为大规模和自动化价值评估提供数据支持。
  • 评估大型语言模型的价值偏好和道德一致性。
AI搜集汇总
数据集介绍
main_image_url
构建方式
CVC(Chinese Values Corpus)数据集的构建基于一个层次化的中国核心价值观框架,该框架涵盖国家、社会和个人三个维度,包含12个核心价值和50个派生价值。数据来源包括精选的国际规则语料库(如SC101和MIC)以及中国本土文化背景下的价值规则。通过人工标注和大型语言模型(如Qwen2.5-72B)的辅助,对规则进行筛选、去重和标准化处理,最终构建了一个包含超过25万条高质量规则的大规模语料库。
特点
CVC数据集具有鲜明的文化适应性和系统性。它不仅全面覆盖了中国核心价值观的各个维度,还通过多层次的价值分类和详细的规则描述,提供了丰富的语义标签。数据集在主题相关性、价值边界和内容多样性方面表现出色,特别适用于评估和指导大型语言模型在中国文化背景下的价值对齐。此外,CVC还支持自动生成复杂的道德困境场景,为研究价值冲突提供了有力工具。
使用方法
CVC数据集可用于指导大型语言模型生成符合中国价值观的评估场景。用户可以通过提供价值名称和对应规则作为输入提示,生成具有明确价值导向的多样化场景。此外,CVC还可用于构建道德困境任务,通过规则驱动的自动化方法生成大规模的价值冲突场景。数据集的所有规则均经过人工标注和质量控制,确保了其在中国文化背景下的准确性和适用性。
背景与挑战
背景概述
CVC(Chinese Values Corpus)是由中国科学院自动化研究所等机构的研究团队于2025年创建的大规模中文价值观语料库,旨在解决大型语言模型(LLMs)与主流人类价值观及伦理规范对齐的问题。该语料库基于中国核心价值观构建了一个层次化的价值观框架,涵盖国家、社会和个人三个维度,包含12个核心价值和50个派生价值,共收录超过25万条经过人工标注的价值规则。CVC的建立填补了现有价值观评估基准在文化适应性和方法论通用性上的空白,特别针对非西方社会文化背景下的模型行为评估提供了重要资源。
当前挑战
CVC面临的挑战主要包括两个方面:1)领域问题挑战:现有价值观评估基准主要基于西方道德理论构建,存在文化偏见和不完整的本土化框架,难以全面捕捉中国文化背景下的价值表达和道德推理;2)构建过程挑战:在语料构建过程中需解决国际规则库的文化适应性过滤、中文价值规则的系统性提取,以及通过人工标注确保价值对齐的准确性等难题。此外,如何实现规则驱动的大规模道德困境场景生成,并客观捕捉不同LLMs在冲突价值优先级的细微差异,也是该数据集面临的重要技术挑战。
常用场景
经典使用场景
在自然语言处理领域,CVC数据集被广泛应用于评估大型语言模型(LLMs)与中国主流价值观的对齐程度。通过构建包含25万条价值规则的大规模语料库,CVC为生成具有明确价值边界的评估场景提供了系统化框架,特别适用于测试模型在敏感主题(如代孕、自杀等)上的道德推理能力。该数据集通过分层价值体系(国家、社会、个人三个维度)引导生成的场景,在语义清晰度和内容多样性上显著优于无引导的生成方法。
衍生相关工作
基于CVC的衍生研究包括:1)价值对齐增强框架VAL-CN,通过规则蒸馏提升模型本土化表现;2)跨文化道德图谱CMap,对比分析中西方模型在50个派生价值维度上的差异;3)动态价值追踪系统DVT,利用语料库监测LLMs价值观漂移现象。这些工作发表在ACL、EMNLP等顶会上,其中Qwen团队采用CVC优化的模型在AlignBench中文对齐评测中提升12.3%的合规性分数。
数据集最近研究
最新研究方向
近年来,随着大语言模型(LLMs)在各领域的广泛应用,如何确保其输出与主流人类价值观和伦理规范对齐成为人工智能安全与可持续发展的重要议题。CVC(Chinese Values Corpus)作为首个基于中国核心价值观构建的大规模中文价值观语料库,为LLMs的价值对齐研究提供了重要资源。该数据集的最新研究方向主要集中在以下几个方面:首先,基于分层价值框架(涵盖国家、社会和个人三个维度,12个核心价值和50个派生价值),CVC通过人工标注增强了超过25万条价值规则,显著提升了生成场景的主题相关性和内容多样性。其次,在跨文化价值对齐方面,CVC在六个敏感主题(如代孕、自杀等)的评估中,七种主流LLMs对CVC生成选项的偏好率超过70.5%,而五位中文人类标注者与CVC的一致性达到87.5%,验证了其在中国文化背景下的普适性和代表性。此外,CVC还支持基于规则的道德困境场景自动生成,通过40万条冲突价值优先级的困境构建,为LLMs的价值偏好研究提供了可扩展的评估框架。这些研究不仅填补了现有基准在非西方文化语境下的空白,也为全球化背景下的人工智能伦理评估提供了新的方法论支持。
相关研究论文
  • 1
    CVC: A Large-Scale Chinese Value Rule Corpus for Value Alignment of Large Language Models中国科学院自动化研究所脑认知与智能系统实验室 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。

国家青藏高原科学数据中心 收录

DeepFashion2

DeepFashion2是由香港中文大学创建的大型时尚图像数据集,包含491,000张图像和801,000个服装项目,每个项目都有丰富的标注,如风格、尺度、视角、遮挡、边界框、密集地标和掩码。数据集通过控制尺度、遮挡、缩放和视角的变量来收集,以创建一个具有挑战性的基准。DeepFashion2适用于多种时尚理解任务,包括服装检测、姿态估计、分割和检索,旨在解决时尚图像分析中的实际问题。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录