five

SimulBench/SimulBench-results

收藏
Hugging Face2024-06-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SimulBench/SimulBench-results
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-4.0 language: - en configs: - config_name: gpt-4-0125-preview data_files: - split: test path: outputs-gpt-4-0125-preview.jsonl - config_name: gpt-4o-2024-05-13 data_files: - split: test path: outputs-gpt-4o-2024-05-13.jsonl - config_name: LLaMA-3-70B-Chat-hf data_files: - split: test path: outputs-Llama-3-70b-chat-hf.jsonl - config_name: LLaMA-3-8B-Chat-hf data_files: - split: test path: outputs-Llama-3-8b-chat-hf.jsonl - config_name: LLaMA-2-70B-Chat-hf data_files: - split: test path: outputs-Llama-2-70b-chat-hf.jsonl - config_name: LLaMA-2-13B-Chat-hf data_files: - split: test path: outputs-Llama-2-13b-chat-hf.jsonl - config_name: LLaMA-2-7B-Chat-hf data_files: - split: test path: outputs-Llama-2-7b-chat-hf.jsonl - config_name: Qwen1.5-110B-Chat data_files: - split: test path: outputs-Qwen1.5-110B-Chat.jsonl - config_name: Qwen1.5-7B-Chat data_files: - split: test path: outputs-Qwen1.5-7B-Chat.jsonl - config_name: Mistral-7B-Instruct-v0.3 data_files: - split: test path: outputs-Mistral-7B-Instruct-v0.3.jsonl - config_name: Mixtral-8x22B-Instruct-v0.1 data_files: - split: test path: outputs-Mixtral-8x22B-Instruct-v0.1.jsonl - config_name: Mixtral-8x7B-Instruct-v0.1 data_files: - split: test path: outputs-Mixtral-8x7B-Instruct-v0.1.jsonl - config_name: pairwise-gpt-4-0125-preview-vs-gpt-4o-2024-05-13 data_files: - split: test path: outputs-pairwise_gpt-4-0125-preview_vs_gpt-4o-2024-05-13.jsonl - config_name: pairwise-gpt-4-0125-preview-vs-LLaMA-3-70B-chat data_files: - split: test path: outputs-pairwise_gpt-4-0125-preview_vs_Llama-3-70b-chat-hf.jsonl - config_name: pairwise-gpt-4o-2024-05-13-vs-LLaMA-3-70B-chat-hf data_files: - split: test path: outputs-pairwise_gpt-4o-2024-05-13_vs_Llama-3-70b-chat-hf.jsonl ---

This dataset includes test data files for multiple configurations, designed to evaluate and compare the performance of different models. Configurations cover models like GPT-4, LLaMA series, Qwen series, Mistral, and Mixtral, along with pairwise comparison configurations to analyze performance differences between models.
提供机构:
SimulBench
原始信息汇总

数据集概述

数据集许可证

  • 许可证: cc-by-nc-4.0

数据集语言

  • 语言: 英语

数据集配置

  • 配置名称: gpt-4-0125-preview

    • 数据文件:
      • 分割: test
      • 路径: outputs-gpt-4-0125-preview.jsonl
  • 配置名称: gpt-4o-2024-05-13

    • 数据文件:
      • 分割: test
      • 路径: outputs-gpt-4o-2024-05-13.jsonl
  • 配置名称: Llama-3-70b-chat-hf

    • 数据文件:
      • 分割: test
      • 路径: outputs-Llama-3-70b-chat-hf.jsonl
  • 配置名称: Llama-3-8b-chat-hf

    • 数据文件:
      • 分割: test
      • 路径: outputs-Llama-3-8b-chat-hf.jsonl
  • 配置名称: Llama-2-70b-chat-hf

    • 数据文件:
      • 分割: test
      • 路径: outputs-Llama-2-70b-chat-hf.jsonl
  • 配置名称: Llama-2-13b-chat-hf

    • 数据文件:
      • 分割: test
      • 路径: outputs-Llama-2-13b-chat-hf.jsonl
  • 配置名称: Llama-2-7b-chat-hf

    • 数据文件:
      • 分割: test
      • 路径: outputs-Llama-2-7b-chat-hf.jsonl
  • 配置名称: Qwen1.5-110B-Chat

    • 数据文件:
      • 分割: test
      • 路径: outputs-Qwen1.5-110B-Chat.jsonl
  • 配置名称: Qwen1.5-7B-Chat

    • 数据文件:
      • 分割: test
      • 路径: outputs-Qwen1.5-7B-Chat.jsonl
  • 配置名称: Mistral-7B-Instruct-v0.3

    • 数据文件:
      • 分割: test
      • 路径: outputs-Mistral-7B-Instruct-v0.3.jsonl
  • 配置名称: Mixtral-8x22B-Instruct-v0.1

    • 数据文件:
      • 分割: test
      • 路径: outputs-Mixtral-8x22B-Instruct-v0.1.jsonl
  • 配置名称: Mixtral-8x7B-Instruct-v0.1

    • 数据文件:
      • 分割: test
      • 路径: outputs-Mixtral-8x7B-Instruct-v0.1.jsonl
  • 配置名称: pairwise-gpt-4-0125-preview-vs-gpt-4o-2024-05-13

    • 数据文件:
      • 分割: test
      • 路径: outputs-pairwise_gpt-4-0125-preview_vs_gpt-4o-2024-05-13.jsonl
  • 配置名称: pairwise-gpt-4-0125-preview-vs-Llama-3-70b-chat

    • 数据文件:
      • 分割: test
      • 路径: outputs-pairwise_gpt-4-0125-preview_vs_Llama-3-70b-chat-hf.jsonl
  • 配置名称: pairwise-gpt-4o-2024-05-13-vs-Llama-3-70b-chat-hf

    • 数据文件:
      • 分割: test
      • 路径: outputs-pairwise_gpt-4o-2024-05-13_vs_Llama-3-70b-chat-hf.jsonl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作