OMGEval

arXiv2024-02-21 更新2024-07-31 收录

下载链接：

https://github.com/blcuicall/OMGEval

下载链接

链接失效反馈

官方服务：

资源简介：

OMGEval是一个开放源代码的多语言生成测试集，用于评估大型语言模型在不同语言中的能力。该数据集为每种语言提供804个开放式问题，涵盖了大型语言模型的重要能力，如一般知识、逻辑推理等，并且每个问题都经过人工标注者的严格验证。此外，为了充分反映大型语言模型在不同文化背景下的兼容性，对每种非英语语言进行了本地化处理。当前版本的OMGEval包含5种语言（即中文、俄语、法语、西班牙语、阿拉伯语）。

OMGEval is an open-source multilingual generative test suite designed to evaluate the capabilities of large language models (LLMs) across diverse languages. This dataset provides 804 open-ended questions for each language, covering core LLM capabilities such as general knowledge, logical reasoning and more. Each question has been rigorously verified by human annotators. Additionally, to fully reflect the cross-cultural compatibility of large language models, each non-English language variant has been properly localized. The current version of OMGEval includes 5 languages, namely Chinese, Russian, French, Spanish and Arabic.

创建时间：

2024-02-21

原始信息汇总

OMGEval😮: An Open Multilingual Generative Evaluation Benchmark for Large Language Models

背景

近一年，大模型发展迅速，带动了一系列通用人工智能技术的迅速发展，对大模型性能的评测随之涌现。目前的评测数据集主要是利用人类试题及其标准答案进行评测，这种评价方式更偏向对推理能力的评估，存在评估结果和模型真实能力有一定偏差。已有的开放式问题数据集都是在单一语言上进行评测的，用来衡量模型的多语言能力的开源的开放式问答数据集仍然空缺。

介绍

多语言开放式问答数据集(OMGEval😮)由北京语言大学、清华大学、东北大学、上海财经大学等高校组成的团队共同发布。主要项目参与人员有刘洋、朱琳、余婧思、徐萌、王誉杰、常鸿翔、袁佳欣、孔存良、安纪元、杨天麟、王硕、刘正皓、陈云、杨尔弘、刘洋、孙茂松等。

数据集构建过程

翻译：使用ChatGPT将AlpacaEval中所有的句子翻译成中文。
本地化：对包含文化元素的句子进行本地化，使其更契合中国文化。
人工校验：对经过翻译和本地化的句子进行人工校验，每个句子由2名标注员，1名审核员校验。

数据集分析

最终得到一个包含804个中文问题的开放式问答数据集。模型能力划分为9个类别：

生成与创作
语言理解
知识问答-生活常识
知识问答-专业知识
逻辑推理
代码能力
数学能力
闲聊
无害化

评估方法

参考AlpacaEval的评估方法，采用Text-Davinci-003的输出作为基准，采用GPT-4作为评估器，为待评估模型和基准输出哪个更优做出判断，计算胜率和标准差。

评估榜单

根据评估方法，得到以下榜单：

	win_rate	standard_error
ChatGPT	91.52	0.98
text_davinci_003	50.00	0.00

对239个本地化问题单独评测，榜单如下：

	win_rate	standard_error
ChatGPT	87.45	2.15
text_davinci_003	50.00	0.00

To-do List

[x] 新增日、韩、意、葡
[ ] 更新榜单，添加GPT-4、vicuna-7B等模型
[ ] 扩充数据集，使得数据集在评估能力分类上分布均衡
[ ] 扩展到多语言

引用

Plaintext @misc{liu2024omgeval, title={OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models}, author={Yang Liu and Meng Xu and Shuo Wang and Liner Yang and Haoyu Wang and Zhenghao Liu and Cunliang Kong and Yun Chen and Yang Liu and Maosong Sun and Erhong Yang}, year={2024}, eprint={2402.13524}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集