CVC (Chinese Values Corpus)|自然语言处理数据集|价值观评估数据集
收藏中文价值语料库(CVC)数据集概述
数据集基本信息
- 名称: Chinese Value Corpus (CVC)
- 语言: 中文(zh)
- 许可协议: CC-BY-4.0
- 任务类别: 文本生成、多项选择
- 多语言性: 单语
- 规模: 100K < n < 1M
- 注释创建者: 专家注释、机器生成
- 源数据集: Social Chemistry 101、Moral Integrity Corpus、Flames
- 标签: 中文价值观、伦理、道德困境、LLM对齐、文化对齐
数据集内容
- 数据文件: CVC.jsonl
- 分类框架: 基于中国核心价值观的三层价值分类框架,包括三个维度、十二个核心价值和五十个衍生价值。
- 规模: 包含超过250,000条高质量、手动注释的规范性规则。
主要贡献
-
构建首个大规模、精细化的中文价值语料库(CVC):
- 基于社会主义核心价值观,开发了一个涵盖国家、社会和个人层面的本土化价值分类框架。
- 包含12个核心价值和50个衍生价值。
-
系统验证CVC的生成指导优势和跨模型适用性:
- 验证了CVC在指导12个核心价值的场景生成中的有效性。
- 定量分析显示,CVC指导的场景在t-SNE空间中表现出更紧凑的聚类和更清晰的边界。
- 在六个伦理主题的测试中,七个主要LLM选择CVC生成选项的比例超过70%。
-
提出基于规则的大规模道德困境生成方法:
- 利用CVC提出了一种基于价值优先级的自动生成道德困境(MDS)的方法。
- 该系统高效创建具有道德挑战性的场景,降低了传统手工构建的成本。
应用场景
- 为大规模和自动化价值评估提供数据支持。
- 评估大型语言模型的价值偏好和道德一致性。

- 1CVC: A Large-Scale Chinese Value Rule Corpus for Value Alignment of Large Language Models中国科学院自动化研究所脑认知与智能系统实验室 · 2025年
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
Global Volcanism Program (GVP)
该数据集包含了全球火山活动的详细信息,包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。
volcano.si.edu 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
红外谱图数据库
收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。
国家基础学科公共科学数据中心 收录
eming/stock_price_trunked_128_12
该数据集包含股票交易相关的详细信息,如交易日期、收盘价、不同周期的移动平均线(MA3, MA5, MA10, MA20, MA60)、MACD指标、股票代码、预测值及预测日期。数据集分为训练集,共有121379个样本,总大小为1126032983字节。
hugging_face 收录