Besteasy/lucyeval

Name: Besteasy/lucyeval
Creator: Besteasy
Published: 2023-08-28 13:30:27
License: 暂无描述

Hugging Face2023-08-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Besteasy/lucyeval

下载链接

链接失效反馈

官方服务：

资源简介：

LucyEval是甲骨易推出的中文大模型全面评测体系，其中CG-Eval是专门针对中文大模型生成能力的测试基准。该基准由甲骨易AI研究院与LanguageX AI Lab联合研发，测试内容包括科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试六个大科目类别下的55个子科目的11000道不同类型问题。数据集包括大科目类别、子科目名称、题目类型、题目编号、题目文本、题目答案的汉字长度和题目prompt等字段。评测方法涉及使用题目prompt向模型提问，收集模型回答后提交至评测网站进行自动评分。

提供机构：

Besteasy

原始信息汇总

数据集概述

基本信息

任务类别: 文本生成
语言: 中文
名称: lucyeval
数据集大小: 1M<n<10M
许可证: cc-by-sa-4.0

数据集简介

名称: LucyEval
研发机构: 甲骨易AI研究院与LanguageX AI Lab
目的: 针对中文大模型生成能力的测试基准
测试内容: 涉及科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试六个大科目类别下的55个子科目的11000道不同类型问题
评分系统: 复合打分系统，包括标准参考答案的加权求和和计算题的综合打分

数据集字段

大科目类别
子科目名称
题目类型
题目编号
题目文本
题目答案的汉字长度
题目prompt

评测方法

使用“题目prompt”列对应的提示词向模型提问
在csv文件中增加“回答”列，存放模型的回复
提交csv文件到评测网站进行自动评分

提交文件字段

大科目类别
子科目名称
题目类型
题目编号
题目文本
题目答案的汉字长度
题目prompt
回答

引用信息

@misc{zeng2023evaluating, title={Evaluating the Generation Capabilities of Large Chinese Language Models}, author={Hui Zeng and Jingyuan Xue and Meng Hao and Chen Sun and Bin Ning and Na Zhang}, year={2023}, eprint={2308.04823}, archivePrefix={arXiv}, primaryClass={cs.CL} }

许可证

数据集遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

5,000+

优质数据集

54 个

任务类型

进入经典数据集