ceval-exam|中文评估数据集|基础模型数据集

魔搭社区2025-05-16 更新2024-05-15 收录

中文评估

基础模型

下载链接：

https://modelscope.cn/datasets/opencompass/ceval-exam

下载链接

链接失效反馈

资源简介：

C-Eval is a comprehensive Chinese evaluation suite for foundation models. It consists of 13948 multi-choice questions spanning 52 diverse disciplines and four difficulty levels. Please visit our [website](https://cevalbenchmark.com/) and [GitHub](https://github.com/SJTU-LIT/ceval/tree/main) or check our [paper](https://arxiv.org/abs/2305.08322) for more details. Each subject consists of three splits: dev, val, and test. The dev set per subject consists of five exemplars with explanations for few-shot evaluation. The val set is intended to be used for hyperparameter tuning. And the test set is for model evaluation. Labels on the test split are not released, users are required to submit their results to automatically obtain test accuracy. [How to submit?](https://github.com/SJTU-LIT/ceval/tree/main#how-to-submit) ### Load the data ```python from modelscope.msdatasets import MsDataset ds = MsDataset.load('opencompass/ceval-exam', subset_name="computer_network") print(dataset['val'][0]) # {'id': 0, 'question': '使用位填充方法，以01111110为位首flag，数据为011011111111111111110010，求问传送时要添加几个0____', 'A': '1', 'B': '2', 'C': '3', 'D': '4', 'answer': 'C', 'explanation': ''} ``` More details on loading and using the data are at our [github page](https://github.com/SJTU-LIT/ceval#data). Please cite our paper if you use our dataset. ``` @article{huang2023ceval, title={C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models}, author={Huang, Yuzhen and Bai, Yuzhuo and Zhu, Zhihao and Zhang, Junlei and Zhang, Jinghan and Su, Tangjun and Liu, Junteng and Lv, Chuancheng and Zhang, Yikai and Lei, Jiayi and Fu, Yao and Sun, Maosong and He, Junxian}, journal={arXiv preprint arXiv:2305.08322}, year={2023} } ```

提供机构：

maas

创建时间：

2024-05-12

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现，包括UIEB、U45和LSUI等数据集，用于支持水下图像增强的研究和开发。

github 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集，专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息，包括720个航班和5770趟列车，以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求，并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题，特别是在多兴趣点行程安排和用户偏好满足方面，为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集，包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录