five

Besteasy/lucyeval

收藏
Hugging Face2023-08-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Besteasy/lucyeval
下载链接
链接失效反馈
官方服务:
资源简介:
LucyEval是甲骨易推出的中文大模型全面评测体系,其中CG-Eval是专门针对中文大模型生成能力的测试基准。该基准由甲骨易AI研究院与LanguageX AI Lab联合研发,测试内容包括科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试六个大科目类别下的55个子科目的11000道不同类型问题。数据集包括大科目类别、子科目名称、题目类型、题目编号、题目文本、题目答案的汉字长度和题目prompt等字段。评测方法涉及使用题目prompt向模型提问,收集模型回答后提交至评测网站进行自动评分。
提供机构:
Besteasy
原始信息汇总

数据集概述

基本信息

  • 任务类别: 文本生成
  • 语言: 中文
  • 名称: lucyeval
  • 数据集大小: 1M<n<10M
  • 许可证: cc-by-sa-4.0

数据集简介

  • 名称: LucyEval
  • 研发机构: 甲骨易AI研究院与LanguageX AI Lab
  • 目的: 针对中文大模型生成能力的测试基准
  • 测试内容: 涉及科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试六个大科目类别下的55个子科目的11000道不同类型问题
  • 评分系统: 复合打分系统,包括标准参考答案的加权求和和计算题的综合打分

数据集字段

  • 大科目类别
  • 子科目名称
  • 题目类型
  • 题目编号
  • 题目文本
  • 题目答案的汉字长度
  • 题目prompt

评测方法

  • 使用“题目prompt”列对应的提示词向模型提问
  • 在csv文件中增加“回答”列,存放模型的回复
  • 提交csv文件到评测网站进行自动评分

提交文件字段

  • 大科目类别
  • 子科目名称
  • 题目类型
  • 题目编号
  • 题目文本
  • 题目答案的汉字长度
  • 题目prompt
  • 回答

引用信息

@misc{zeng2023evaluating, title={Evaluating the Generation Capabilities of Large Chinese Language Models}, author={Hui Zeng and Jingyuan Xue and Meng Hao and Chen Sun and Bin Ning and Na Zhang}, year={2023}, eprint={2308.04823}, archivePrefix={arXiv}, primaryClass={cs.CL} }

许可证

  • 数据集遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作