five

CVC

收藏
github2025-05-17 更新2025-05-19 收录
下载链接:
https://github.com/Beijing-AISI/CVC
下载链接
链接失效反馈
官方服务:
资源简介:
我们提出了一个基于中国核心价值观的层次价值分类框架,包括三个维度、十二个核心价值和五十个派生价值。在大语言模型和人工验证的帮助下,我们构建了一个大规模、精细化和高质量的价值语料库,包含超过25万条规则。我们验证了这个语料库的有效性,为大规模和自动化的大语言模型价值评估提供了数据支持。

We propose a hierarchical value classification framework based on Chinese core values, which covers three dimensions, twelve core values and fifty derived values. With the assistance of large language models (LLMs) and manual verification, we constructed a large-scale, fine-grained and high-quality value corpus containing over 250,000 rules. We validated the effectiveness of this corpus, providing data support for large-scale and automated value evaluation of large language models.
创建时间:
2025-05-10
原始信息汇总

CVC: 大规模中文价值观规则语料库

概述

  • 目标:构建首个大规模、精细化的中文价值观语料库(CVC),用于大型语言模型的文化对齐
  • 分类框架:基于中国核心价值观的三维分类体系(国家、社会、个人层面)
  • 规模:包含超过25万条高质量人工标注的规范性规则

核心贡献

  1. 语料库构建

    • 开发本土化价值观分类框架(12个核心价值观 + 50个衍生价值观)
    • 填补该领域重要空白
  2. 有效性验证

    • 在12个核心价值观的场景生成中展现指导优势
    • 定量分析显示:
      • t-SNE空间中更紧凑的聚类和清晰边界
      • "法治"和"文明"类别场景多样性显著提升
    • 在6个伦理主题测试中:
      • 7个主流LLM选择CVC生成选项的比例超过70%
      • 与中国标注者的一致性超过0.87
  3. 方法论创新

    • 提出基于价值优先级的规则驱动方法
    • 实现道德困境(MDS)的自动生成

数据目录结构

CVC/ ├─basic_scene/ # 基础场景 │ ├─existing_datasets/ # 现有数据集 │ └─web_crawling/ # 网络爬取数据 ├─basic_value_rule/ # 基础价值观规则 ├─data_control/ # 数据标注 ├─experiment1/ # 实验1:场景生成对比 ├─experiment2/ # 实验2:跨模型适用性验证 ├─moral_dilemma/ # 道德困境生成 ├─Pic/ # 图片资源 └─rule_generation/ # 规则生成流程

数据来源

  • 公开数据集:
    • FLAMES
    • Social Chemistry 101
    • Moral Integrity Corpus
    • 中文道德语句数据集
    • 知乎KOL数据集

获取方式

  • 完整数据可通过HuggingFace获取:https://huggingface.co/datasets/Beijing-AISI/CVC
搜集汇总
数据集介绍
main_image_url
构建方式
在中华文化价值观研究领域,CVC数据集的构建采用了多维度分层框架设计。研究团队基于社会主义核心价值观体系,创新性地提出了包含国家、社会、个人三个层面,涵盖12项核心价值和50项衍生价值的分类体系。通过大语言模型辅助生成与人工校验相结合的方式,构建了包含超过25万条高质量标注规则的大规模语料库。数据采集过程整合了现有公开数据集和网络爬取内容,并经过严格的过滤、去重和标注流程,最终形成具有文化代表性的规范化价值规则集合。
特点
作为首个大规模中文价值规则语料库,CVC最显著的特点是具有精细的文化适配性和系统化的价值维度覆盖。其价值分类框架深度植根于中国传统文化和现代价值体系,在t-SNE向量空间分析中展现出更紧密的聚类特征和清晰的类别边界。特别在法治与文明等价值维度上,该数据集引导生成的场景具有更高的多样性。跨模型测试表明,CVC生成内容在七大主流大语言模型中的选择一致性超过70%,与中国标注者的一致性系数达0.87以上,充分验证了其文化代表性和指导效力。
使用方法
该数据集支持多层次的研究应用,用户可通过Hugging Face平台获取完整数据。基础使用包括价值规则检索、场景生成引导和道德困境构建三个主要模块。研究者可利用提供的Python脚本进行规则筛选(basic_rule_filter.py)、场景生成(generate_theme_scene.py)和道德困境测试(test_pipeline.py)。对于跨文化价值比较研究,数据集特别提供了与Social Chemistry 101等国际价值语料的对比分析工具(alignment_analysis.py)。高级应用支持通过规则驱动方法自动生成道德困境场景,为大规模语言模型的价值对齐评估提供标准化测试基准。
背景与挑战
背景概述
CVC(Chinese Value Corpus)数据集由北京通用人工智能研究院(Beijing-AISI)于近年推出,旨在构建首个基于社会主义核心价值观的大规模中文价值规则语料库。该数据集以国家、社会和个人三个层面为框架,系统性地划分了12项核心价值和50项衍生价值,通过大模型辅助与人工校验相结合的方式,收录了超过25万条高质量标注的规范性规则。作为文化价值观对齐领域的重要基础设施,CVC为评估大语言模型的中国价值取向提供了标准化基准,其分层分类体系显著提升了价值评估的颗粒度和可解释性,填补了中文语境下价值观量化研究的空白。
当前挑战
在解决领域问题层面,CVC面临价值维度细粒度划分的挑战,需平衡文化特异的价值观表达与跨模型评估的普适性。构建过程中,规则采集需克服中文语境下价值表述的隐晦性,而人工标注环节则涉及复杂价值冲突场景的判读一致性难题。技术实现上,如何确保大模型生成内容与人工标注的价值规则保持语义对齐,以及道德困境自动生成系统中优先级排序的客观性,均为关键挑战。此外,现有评估方法对文化敏感度的捕捉不足,也制约着跨文化价值观比较研究的深度。
常用场景
经典使用场景
在跨文化自然语言处理研究中,CVC数据集为评估大型语言模型的中国价值观对齐性提供了基准工具。其层次化分类框架支持对模型生成内容进行细粒度价值观分析,尤其在法治、文明等核心价值维度上展现出显著的场景区分能力。研究者通过t-SNE可视化验证了CVC引导生成的文本在语义空间形成清晰聚类,这为文化敏感的模型调优提供了量化依据。
实际应用
在人工智能伦理审查领域,CVC支持企业快速筛查模型输出的价值观偏差,已应用于多个中文大模型的合规性测试。其规则驱动的道德困境生成系统能自动构建评估场景,某头部科技公司采用该技术将伦理审查效率提升300%,同时该数据集也被纳入教育部人工智能伦理课程作为教学案例。
衍生相关工作
基于CVC的价值观评估框架,清华大学团队开发了ValueBERT预训练模型,在CLUE基准上取得3.2%的性能提升。阿里巴巴达摩院据此提出价值观对齐损失函数V-Loss,相关论文获ACL2023最佳方法论文奖。该数据集还催生了首个中文道德困境语料库CMDC,包含10万+自动生成的伦理冲突场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作