OMGEval
收藏OMGEval😮: An Open Multilingual Generative Evaluation Benchmark for Large Language Models
背景
近一年,大模型发展迅速,带动了一系列通用人工智能技术的迅速发展,对大模型性能的评测随之涌现。目前的评测数据集主要是利用人类试题及其标准答案进行评测,这种评价方式更偏向对推理能力的评估,存在评估结果和模型真实能力有一定偏差。已有的开放式问题数据集都是在单一语言上进行评测的,用来衡量模型的多语言能力的开源的开放式问答数据集仍然空缺。
介绍
多语言开放式问答数据集(OMGEval😮)由北京语言大学、清华大学、东北大学、上海财经大学等高校组成的团队共同发布。主要项目参与人员有刘洋、朱琳、余婧思、徐萌、王誉杰、常鸿翔、袁佳欣、孔存良、安纪元、杨天麟、王硕、刘正皓、陈云、杨尔弘、刘洋、孙茂松等。
数据集构建过程
- 翻译:使用ChatGPT将AlpacaEval中所有的句子翻译成中文。
- 本地化:对包含文化元素的句子进行本地化,使其更契合中国文化。
- 人工校验:对经过翻译和本地化的句子进行人工校验,每个句子由2名标注员,1名审核员校验。
数据集分析
最终得到一个包含804个中文问题的开放式问答数据集。模型能力划分为9个类别:
- 生成与创作
- 语言理解
- 知识问答-生活常识
- 知识问答-专业知识
- 逻辑推理
- 代码能力
- 数学能力
- 闲聊
- 无害化
评估方法
参考AlpacaEval的评估方法,采用Text-Davinci-003的输出作为基准,采用GPT-4作为评估器,为待评估模型和基准输出哪个更优做出判断,计算胜率和标准差。
评估榜单
根据评估方法,得到以下榜单:
| win_rate | standard_error | |
|---|---|---|
| ChatGPT | 91.52 | 0.98 |
| text_davinci_003 | 50.00 | 0.00 |
对239个本地化问题单独评测,榜单如下:
| win_rate | standard_error | |
|---|---|---|
| ChatGPT | 87.45 | 2.15 |
| text_davinci_003 | 50.00 | 0.00 |
To-do List
- [x] 新增日、韩、意、葡
- [ ] 更新榜单,添加GPT-4、vicuna-7B等模型
- [ ] 扩充数据集,使得数据集在评估能力分类上分布均衡
- [ ] 扩展到多语言
引用
Plaintext @misc{liu2024omgeval, title={OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models}, author={Yang Liu and Meng Xu and Shuo Wang and Liner Yang and Haoyu Wang and Zhenghao Liu and Cunliang Kong and Yun Chen and Yang Liu and Maosong Sun and Erhong Yang}, year={2024}, eprint={2402.13524}, archivePrefix={arXiv}, primaryClass={cs.CL} }



