five

Open-Style/Open-LLM-Benchmark

收藏
Hugging Face2024-07-31 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Open-Style/Open-LLM-Benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
Open-LLM-Leaderboard数据集用于跟踪各种大型语言模型(LLMs)在开放式问题上的表现,以反映其真实能力。该数据集包括预生成的模型答案和使用LLM评估器的评估结果。数据集的结构包括模型响应文件和问题文件,其中模型响应文件包含问题、标准答案、模型生成的答案及其评估结果,问题文件包含问题、选项、过滤信息等。数据集的创建部分提到,数据来源于多个数据集,如MMLU、ARC、WinoGrande等,适合用于开放式回答。

Open-LLM-Leaderboard数据集用于跟踪各种大型语言模型(LLMs)在开放式问题上的表现,以反映其真实能力。该数据集包括预生成的模型答案和使用LLM评估器的评估结果。数据集的结构包括模型响应文件和问题文件,其中模型响应文件包含问题、标准答案、模型生成的答案及其评估结果,问题文件包含问题、选项、过滤信息等。数据集的创建部分提到,数据来源于多个数据集,如MMLU、ARC、WinoGrande等,适合用于开放式回答。
提供机构:
Open-Style
原始信息汇总

Open-LLM-Benchmark 数据集概述

数据集描述

Open-LLM-Leaderboard 数据集用于跟踪各种大型语言模型(LLMs)在开放式问题上的表现,以反映其真实能力。该数据集包括预生成的模型答案和使用基于LLM的评估器进行的评估。

数据集结构

数据集包含以下类型的文件:

  • 模型响应文件:包含问题、标准答案、模型生成的答案、评估结果等信息。
  • 问题文件:包含问题、答案选项、过滤信息等。

示例

模型响应文件示例

json { "question": "What is the main function of photosynthetic cells within a plant?", "gold_answer": "to convert energy from sunlight into food energy", "os_answer": "The main function of photosynthetic cells ...", "os_eval": "Correct", "mcq_answer": "C", "mcq_eval": true, "dataset": "ARC" }

问题文件示例

json { "question": "An astronomer observes that a planet rotates faster after a meteorite impact. Which is the most likely effect of this increase in rotation?", "answerKey": "C", "options": [ { "label": "A", "text": "Planetary density will decrease." }, { "label": "B", "text": "Planetary years will become longer." }, { "label": "C", "text": "Planetary days will become shorter." }, { "label": "D", "text": "Planetary gravity will become stronger." } ], "first_filter": "YES", "passage": "-", "second_filter": 10, "dataset": "ARC" }

数据集创建

数据来源

数据集包含来自多个数据集的问题,包括 MMLU、ARC、WinoGrande、PIQA、CommonsenseQA、Race、MedMCQA 和 OpenbookQA,这些数据集适合用于开放式回答。

数据收集与处理

数据收集过程涉及从上述数据集中编译问题,并使用各种LLMs生成答案。

引用

@article{myrzakhan2024openllm, title={Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena}, author={Aidar Myrzakhan, Sondos Mahmoud Bsharat, Zhiqiang Shen}, journal={arXiv preprint }, year={2024}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作