five

haonan-li/cmmlu|中文语言理解数据集|多任务评估数据集

收藏
hugging_face2023-07-13 更新2024-03-04 收录
中文语言理解
多任务评估
下载链接:
https://hf-mirror.com/datasets/haonan-li/cmmlu
下载链接
链接失效反馈
资源简介:
CMMLU是一个综合的中文评估套件,专门设计用于评估在中文语言和文化背景下的大规模多任务语言理解能力。它涵盖了67个主题,从基础到高级专业水平,包括需要计算专长的学科如物理和数学,以及人文和社会科学学科。数据集中的许多任务由于其特定的上下文细微差别和措辞,不易从其他语言翻译而来。此外,CMMLU中的许多任务的答案特定于中国,可能在其他地区或语言中不适用或不正确。数据集提供了每个主题的开发和测试数据集,每个问题都是选择题,有4个选项,只有一个正确答案。

CMMLU是一个综合的中文评估套件,专门设计用于评估在中文语言和文化背景下的大规模多任务语言理解能力。它涵盖了67个主题,从基础到高级专业水平,包括需要计算专长的学科如物理和数学,以及人文和社会科学学科。数据集中的许多任务由于其特定的上下文细微差别和措辞,不易从其他语言翻译而来。此外,CMMLU中的许多任务的答案特定于中国,可能在其他地区或语言中不适用或不正确。数据集提供了每个主题的开发和测试数据集,每个问题都是选择题,有4个选项,只有一个正确答案。
提供机构:
haonan-li
原始信息汇总

数据集概述

数据集名称

  • CMMLU

数据集描述

  • CMMLU 是一个专为评估大型语言模型(LLMs)在中文语言和文化背景下的高级知识和推理能力而设计的综合评估套件。该数据集覆盖了从基础到高级专业水平的67个主题,包括需要计算专业知识的物理和数学,以及人文和社会科学领域。

数据集特点

  • 包含多个选择题和问答任务。
  • 每个问题都是带有4个选项的多项选择题,仅有一个正确答案。
  • 许多任务因其特定的上下文细微差别和措辞,不易从其他语言翻译。
  • 许多任务的答案特定于中国,可能不适用于其他地区或语言。

数据集结构

  • 提供每个主题的开发和测试数据集。
  • 开发集包含5个问题,测试集包含100多个问题。

数据集使用

  • 数据集可以通过Python代码加载,支持按主题加载或一次性加载所有数据。

数据集许可证

引用信息

@misc{li2023cmmlu, title={CMMLU: Measuring massive multitask language understanding in Chinese}, author={Haonan Li and Yixuan Zhang and Fajri Koto and Yifei Yang and Hai Zhao and Yeyun Gong and Nan Duan and Timothy Baldwin}, year={2023}, eprint={2306.09212}, archivePrefix={arXiv}, primaryClass={cs.CL} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CMMLU数据集是一个专门设计用于评估中文大规模多任务语言理解能力的综合性评估套件。该数据集涵盖了67个主题,从基础到高级专业水平,包括物理学、数学等需要计算能力的学科,以及人文和社会科学领域。每个主题的开发集包含5个问题,测试集包含100多个问题,所有问题均为四选一的多项选择题。数据集的构建充分考虑了中文语言和文化背景的特殊性,确保问题的答案在中国语境下具有唯一性和准确性。
特点
CMMLU数据集的特点在于其广泛的主题覆盖和深入的中文语言文化背景。数据集不仅涵盖了科学和技术领域,还包括了人文和社会科学,特别是那些在其他语言中难以直接翻译的主题。此外,许多问题的答案具有地域特异性,仅在中国语境下成立,这为评估模型在特定文化背景下的理解能力提供了独特的挑战。数据集的多任务设计使得它能够全面评估模型在不同领域的知识和推理能力。
使用方法
CMMLU数据集的使用方法灵活多样,用户可以通过Hugging Face的`datasets`库轻松加载数据。数据集支持按主题加载,用户可以选择特定的主题进行测试或开发。此外,数据集还支持一次性加载所有主题的数据,便于进行大规模的多任务评估。加载数据后,用户可以直接访问每个问题的题干、选项和正确答案,进行模型训练或评估。数据集的使用不仅限于学术研究,还可用于工业界的模型优化和性能测试。
背景与挑战
背景概述
CMMLU数据集由Haonan Li等人于2023年创建,旨在评估大型语言模型(LLMs)在中文语言和文化背景下的多任务理解能力。该数据集涵盖了67个主题,从基础到高级专业水平,涉及物理学、数学、人文社会科学等多个领域。CMMLU的独特之处在于其任务设计充分考虑了中文语境和文化背景,许多问题具有中国特定的答案,难以从其他语言直接翻译。该数据集的发布为中文自然语言处理领域的研究提供了重要的评估工具,推动了LLMs在中文环境下的应用与发展。
当前挑战
CMMLU数据集在构建过程中面临多重挑战。首先,由于任务涵盖广泛的主题,确保每个主题的题目质量和多样性成为一大难题。其次,许多题目需要结合中国特定的文化背景和语境,这对题目的设计和验证提出了更高的要求。此外,数据集的规模较大,涉及67个主题的开发集和测试集,每个主题包含100多个问题,数据收集和标注的工作量巨大。最后,如何确保题目的准确性和一致性,避免歧义和错误,也是构建过程中需要克服的关键挑战。这些挑战不仅影响了数据集的构建效率,也对后续模型的评估提出了更高的要求。
常用场景
经典使用场景
CMMLU数据集广泛应用于评估中文大语言模型(LLMs)的多任务理解能力。通过涵盖67个不同学科的多项选择题,该数据集能够全面测试模型在中文语言和文化背景下的知识广度和推理深度。经典使用场景包括模型性能的基准测试、跨学科知识整合能力的评估,以及模型在特定领域(如医学、法律、教育等)的专业知识掌握情况。
解决学术问题
CMMLU数据集解决了中文大语言模型在复杂多任务环境下的评估难题。传统评估方法往往局限于单一领域或语言,难以全面反映模型的实际能力。CMMLU通过覆盖广泛的学科和具有文化特异性的问题,为研究者提供了一个标准化的评估框架,帮助识别模型在知识理解和推理能力上的短板,推动了中文自然语言处理领域的研究进展。
衍生相关工作
CMMLU数据集的发布催生了一系列相关研究工作,特别是在中文大语言模型的评估和优化领域。例如,基于CMMLU的评估结果,研究者提出了多种改进模型多任务学习能力的方法,包括跨领域知识迁移、多任务联合训练等。此外,CMMLU还被用于开发新的评估指标和工具,进一步推动了中文自然语言处理技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

新能源光伏功率预测数据

采集数值天气预报数据、实时环境气象数据、光伏电站实时输出功率数据等信息,通过气象预测模型与功率预测算法,实现对光伏电站未来一段时间内气象数据及功率数据的预测。

安徽省数据知识产权登记平台 收录

BDD100K

数据集推动了视觉的进步,但现有的驾驶数据集在视觉内容和支持任务方面缺乏研究,以研究自动驾驶的多任务学习。研究人员通常只能在一个数据集上研究一小组问题,而现实世界的计算机视觉应用程序需要执行各种复杂的任务。我们构建了最大的驾驶视频数据集 BDD100K,包含 10 万个视频和 10 个任务,以评估图像识别算法在自动驾驶方面的令人兴奋的进展。该数据集具有地理、环境和天气的多样性,这对于训练不太可能对新条件感到惊讶的模型很有用。基于这个多样化的数据集,我们为异构多任务学习建立了一个基准,并研究了如何一起解决这些任务。我们的实验表明,现有模型需要特殊的训练策略来执行此类异构任务。 BDD100K 为未来在这个重要场所的学习打开了大门。更多详细信息请参见数据集主页。

OpenDataLab 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录