SimulBench/SimulBench-results
收藏Hugging Face2024-06-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SimulBench/SimulBench-results
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-4.0
language:
- en
configs:
- config_name: gpt-4-0125-preview
data_files:
- split: test
path: outputs-gpt-4-0125-preview.jsonl
- config_name: gpt-4o-2024-05-13
data_files:
- split: test
path: outputs-gpt-4o-2024-05-13.jsonl
- config_name: LLaMA-3-70B-Chat-hf
data_files:
- split: test
path: outputs-Llama-3-70b-chat-hf.jsonl
- config_name: LLaMA-3-8B-Chat-hf
data_files:
- split: test
path: outputs-Llama-3-8b-chat-hf.jsonl
- config_name: LLaMA-2-70B-Chat-hf
data_files:
- split: test
path: outputs-Llama-2-70b-chat-hf.jsonl
- config_name: LLaMA-2-13B-Chat-hf
data_files:
- split: test
path: outputs-Llama-2-13b-chat-hf.jsonl
- config_name: LLaMA-2-7B-Chat-hf
data_files:
- split: test
path: outputs-Llama-2-7b-chat-hf.jsonl
- config_name: Qwen1.5-110B-Chat
data_files:
- split: test
path: outputs-Qwen1.5-110B-Chat.jsonl
- config_name: Qwen1.5-7B-Chat
data_files:
- split: test
path: outputs-Qwen1.5-7B-Chat.jsonl
- config_name: Mistral-7B-Instruct-v0.3
data_files:
- split: test
path: outputs-Mistral-7B-Instruct-v0.3.jsonl
- config_name: Mixtral-8x22B-Instruct-v0.1
data_files:
- split: test
path: outputs-Mixtral-8x22B-Instruct-v0.1.jsonl
- config_name: Mixtral-8x7B-Instruct-v0.1
data_files:
- split: test
path: outputs-Mixtral-8x7B-Instruct-v0.1.jsonl
- config_name: pairwise-gpt-4-0125-preview-vs-gpt-4o-2024-05-13
data_files:
- split: test
path: outputs-pairwise_gpt-4-0125-preview_vs_gpt-4o-2024-05-13.jsonl
- config_name: pairwise-gpt-4-0125-preview-vs-LLaMA-3-70B-chat
data_files:
- split: test
path: outputs-pairwise_gpt-4-0125-preview_vs_Llama-3-70b-chat-hf.jsonl
- config_name: pairwise-gpt-4o-2024-05-13-vs-LLaMA-3-70B-chat-hf
data_files:
- split: test
path: outputs-pairwise_gpt-4o-2024-05-13_vs_Llama-3-70b-chat-hf.jsonl
---
This dataset includes test data files for multiple configurations, designed to evaluate and compare the performance of different models. Configurations cover models like GPT-4, LLaMA series, Qwen series, Mistral, and Mixtral, along with pairwise comparison configurations to analyze performance differences between models.
提供机构:
SimulBench
原始信息汇总
数据集概述
数据集许可证
- 许可证: cc-by-nc-4.0
数据集语言
- 语言: 英语
数据集配置
-
配置名称: gpt-4-0125-preview
- 数据文件:
- 分割: test
- 路径: outputs-gpt-4-0125-preview.jsonl
- 数据文件:
-
配置名称: gpt-4o-2024-05-13
- 数据文件:
- 分割: test
- 路径: outputs-gpt-4o-2024-05-13.jsonl
- 数据文件:
-
配置名称: Llama-3-70b-chat-hf
- 数据文件:
- 分割: test
- 路径: outputs-Llama-3-70b-chat-hf.jsonl
- 数据文件:
-
配置名称: Llama-3-8b-chat-hf
- 数据文件:
- 分割: test
- 路径: outputs-Llama-3-8b-chat-hf.jsonl
- 数据文件:
-
配置名称: Llama-2-70b-chat-hf
- 数据文件:
- 分割: test
- 路径: outputs-Llama-2-70b-chat-hf.jsonl
- 数据文件:
-
配置名称: Llama-2-13b-chat-hf
- 数据文件:
- 分割: test
- 路径: outputs-Llama-2-13b-chat-hf.jsonl
- 数据文件:
-
配置名称: Llama-2-7b-chat-hf
- 数据文件:
- 分割: test
- 路径: outputs-Llama-2-7b-chat-hf.jsonl
- 数据文件:
-
配置名称: Qwen1.5-110B-Chat
- 数据文件:
- 分割: test
- 路径: outputs-Qwen1.5-110B-Chat.jsonl
- 数据文件:
-
配置名称: Qwen1.5-7B-Chat
- 数据文件:
- 分割: test
- 路径: outputs-Qwen1.5-7B-Chat.jsonl
- 数据文件:
-
配置名称: Mistral-7B-Instruct-v0.3
- 数据文件:
- 分割: test
- 路径: outputs-Mistral-7B-Instruct-v0.3.jsonl
- 数据文件:
-
配置名称: Mixtral-8x22B-Instruct-v0.1
- 数据文件:
- 分割: test
- 路径: outputs-Mixtral-8x22B-Instruct-v0.1.jsonl
- 数据文件:
-
配置名称: Mixtral-8x7B-Instruct-v0.1
- 数据文件:
- 分割: test
- 路径: outputs-Mixtral-8x7B-Instruct-v0.1.jsonl
- 数据文件:
-
配置名称: pairwise-gpt-4-0125-preview-vs-gpt-4o-2024-05-13
- 数据文件:
- 分割: test
- 路径: outputs-pairwise_gpt-4-0125-preview_vs_gpt-4o-2024-05-13.jsonl
- 数据文件:
-
配置名称: pairwise-gpt-4-0125-preview-vs-Llama-3-70b-chat
- 数据文件:
- 分割: test
- 路径: outputs-pairwise_gpt-4-0125-preview_vs_Llama-3-70b-chat-hf.jsonl
- 数据文件:
-
配置名称: pairwise-gpt-4o-2024-05-13-vs-Llama-3-70b-chat-hf
- 数据文件:
- 分割: test
- 路径: outputs-pairwise_gpt-4o-2024-05-13_vs_Llama-3-70b-chat-hf.jsonl
- 数据文件:



