Besteasy/lucyeval
收藏Hugging Face2023-08-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Besteasy/lucyeval
下载链接
链接失效反馈官方服务:
资源简介:
LucyEval是甲骨易推出的中文大模型全面评测体系,其中CG-Eval是专门针对中文大模型生成能力的测试基准。该基准由甲骨易AI研究院与LanguageX AI Lab联合研发,测试内容包括科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试六个大科目类别下的55个子科目的11000道不同类型问题。数据集包括大科目类别、子科目名称、题目类型、题目编号、题目文本、题目答案的汉字长度和题目prompt等字段。评测方法涉及使用题目prompt向模型提问,收集模型回答后提交至评测网站进行自动评分。
提供机构:
Besteasy
原始信息汇总
数据集概述
基本信息
- 任务类别: 文本生成
- 语言: 中文
- 名称: lucyeval
- 数据集大小: 1M<n<10M
- 许可证: cc-by-sa-4.0
数据集简介
- 名称: LucyEval
- 研发机构: 甲骨易AI研究院与LanguageX AI Lab
- 目的: 针对中文大模型生成能力的测试基准
- 测试内容: 涉及科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试六个大科目类别下的55个子科目的11000道不同类型问题
- 评分系统: 复合打分系统,包括标准参考答案的加权求和和计算题的综合打分
数据集字段
- 大科目类别
- 子科目名称
- 题目类型
- 题目编号
- 题目文本
- 题目答案的汉字长度
- 题目prompt
评测方法
- 使用“题目prompt”列对应的提示词向模型提问
- 在csv文件中增加“回答”列,存放模型的回复
- 提交csv文件到评测网站进行自动评分
提交文件字段
- 大科目类别
- 子科目名称
- 题目类型
- 题目编号
- 题目文本
- 题目答案的汉字长度
- 题目prompt
- 回答
引用信息
@misc{zeng2023evaluating, title={Evaluating the Generation Capabilities of Large Chinese Language Models}, author={Hui Zeng and Jingyuan Xue and Meng Hao and Chen Sun and Bin Ning and Na Zhang}, year={2023}, eprint={2308.04823}, archivePrefix={arXiv}, primaryClass={cs.CL} }
许可证
- 数据集遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License



