ChuckMcSneed/NeoEvalPlusN_benchmark

Name: ChuckMcSneed/NeoEvalPlusN_benchmark
Creator: ChuckMcSneed
Published: 2024-07-22 07:16:50
License: 暂无描述

Hugging Face2024-07-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ChuckMcSneed/NeoEvalPlusN_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于评估语言模型性能的基准测试集，包含多个测试（B-test、C-test、D-test、P-test、S-test）。B-test、C-test和D-test主要评估模型执行命令的能力，而P-test和S-test则评估模型的创造性写作能力。每个测试都有不同的评分标准和目标。测试结果显示了不同模型的表现及其特点，如模型是否能够通过基本命令测试、创造性写作能力如何等。README还提到了测试的局限性，如测试仅进行一次、人为因素对结果的影响等。

提供机构：

ChuckMcSneed

原始信息汇总

数据集概述

数据集目的

旨在评估模型在执行命令和创意写作方面的能力，而非智能程度。

测试条件

所有测试在koboldcpp环境中执行。
测试参数设置：温度（temperature）和顶部概率（top P）约等于0，重复惩罚（rep. penalty）=1。

测试格式

使用模型适宜的格式进行测试，除非该格式不适用。

5,000+

优质数据集

54 个

任务类型

进入经典数据集