cryptom/ceval-exam|中文评估数据集|模型评估数据集

hugging_face2023-06-24 更新2024-03-04 收录

中文评估

模型评估

下载链接：

https://hf-mirror.com/datasets/cryptom/ceval-exam

下载链接

链接失效反馈

资源简介：

C-Eval是一个综合性的中文基础模型评估套件，包含13948个多选题，涵盖52个不同学科和四个难度级别。数据集分为dev、val和test三个部分，dev用于少样本评估，val用于超参数调整，test用于模型评估。测试集的标签未公开，用户需提交结果以自动获取测试准确率。

提供机构：

cryptom

原始信息汇总

数据集概述

名称: C-Eval

许可证: cc-by-nc-sa-4.0

任务类别:

文本分类
多项选择
问答

语言: 中文

规模: 10K<n<100K

数据集内容

C-Eval 是一个综合性的中文基础模型评估套件，包含13948个多项选择题，涵盖52个不同学科和四个难度级别。

数据集结构

每个学科包含三个部分：

dev 集：包含五个示例及其解释，用于少样本评估。
val 集：用于超参数调整。
test 集：用于模型评估，测试集的标签不公开，用户需提交结果以自动获取测试准确率。

数据加载示例

python from datasets import load_dataset dataset=load_dataset(r"ceval/ceval-exam",name="computer_network")

print(dataset[val][0])

{id: 0, question: 使用位填充方法，以01111110为位首flag，数据为011011111111111111110010，求问传送时要添加几个0____, A: 1, B: 2, C: 3, D: 4, answer: C, explanation: }

引用信息

@article{huang2023ceval, title={C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models}, author={Huang, Yuzhen and Bai, Yuzhuo and Zhu, Zhihao and Zhang, Junlei and Zhang, Jinghan and Su, Tangjun and Liu, Junteng and Lv, Chuancheng and Zhang, Yikai and Lei, Jiayi and Fu, Yao and Sun, Maosong and He, Junxian}, journal={arXiv preprint arXiv:2305.08322}, year={2023} }

AI搜集汇总

数据集介绍

构建方式

C-Eval数据集的构建旨在为中文基础模型提供一个全面且多样化的评估平台。该数据集包含了13948道多选题，涵盖了52个不同的学科领域，并分为四个难度级别。每个学科领域被细分为开发集（dev）、验证集（val）和测试集（test）。开发集包含五个带有解释的样本，用于少样本评估；验证集用于超参数调优；测试集则用于模型评估。测试集的标签未公开，用户需提交结果以自动获取测试准确率。

特点

C-Eval数据集的显著特点在于其广泛性和多样性。它不仅覆盖了多个学科领域，还通过四个难度级别确保了评估的全面性。此外，数据集的结构设计合理，包括开发集、验证集和测试集，使得模型可以在不同阶段进行有效的评估和优化。测试集的标签保密机制也增加了数据集的挑战性和实用性。

使用方法

使用C-Eval数据集时，用户可以通过HuggingFace的datasets库轻松加载数据。例如，使用`load_dataset`函数可以加载特定学科的数据集，如计算机网络。数据集的使用包括开发集的少样本评估、验证集的超参数调优以及测试集的模型评估。用户需遵循提交指南，将测试结果提交以获取准确率评估。更多详细信息和使用示例可在数据集的GitHub页面找到。

背景与挑战

背景概述

C-Eval数据集是由上海交通大学LIT实验室主导开发的综合性中文评估套件，旨在为基石模型提供全面的中文能力评估。该数据集创建于2023年，包含了13948道多选题，涵盖52个不同学科领域，并设置了四个难度级别。C-Eval的推出填补了中文基石模型评估领域的空白，为研究人员提供了一个标准化的测试平台，有助于推动中文自然语言处理技术的发展。

当前挑战

C-Eval数据集在构建过程中面临多重挑战。首先，涵盖52个学科的多选题设计需要跨学科的专业知识，确保题目在不同领域的代表性和准确性。其次，数据集的难度分级要求对题目进行精细的难度评估，以确保评估结果的可靠性。此外，数据集的规模和多样性也带来了管理和维护的挑战，特别是在处理大规模数据时，如何保证数据的质量和一致性是一个重要问题。

常用场景

经典使用场景

C-Eval数据集在多学科领域的基础模型评估中展现了其经典应用场景。该数据集包含了13948道多选题，涵盖了52个不同的学科和四个难度级别，为模型在广泛学科中的表现提供了全面的评估。通过使用C-Eval，研究者可以有效地测试和比较不同基础模型在中文环境下的性能，尤其是在跨学科和多难度层次的复杂任务中。

衍生相关工作

C-Eval数据集的发布激发了一系列相关研究工作。例如，研究者基于C-Eval开发了新的模型评估方法，探索了不同模型在多学科和多难度级别下的表现差异。此外，还有研究聚焦于如何利用C-Eval数据集进行模型优化和参数调整，以提高模型在中文环境下的整体性能。这些工作不仅丰富了中文自然语言处理的研究内容，也为未来的模型评估提供了新的思路和方法。

数据集最近研究

最新研究方向

在自然语言处理领域，C-Eval数据集的推出为中文基础模型的评估提供了全面且细致的工具。该数据集涵盖了52个学科领域，并设置了四个难度级别，旨在通过多选题的形式评估模型在不同学科和难度下的表现。近年来，研究者们利用C-Eval数据集进行了一系列前沿研究，特别是在多任务学习、少样本学习和跨学科知识迁移等方面。这些研究不仅推动了中文基础模型的性能提升，还为模型在实际应用中的泛化能力提供了新的评估标准。此外，C-Eval的开放性和多样性也吸引了学术界和工业界的广泛关注，成为评估中文语言模型性能的重要基准之一。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

DermNet

DermNet是一个包含皮肤病图像的数据集，涵盖了多种皮肤病类型，如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。