ChuckMcSneed/NeoEvalPlusN_benchmark
收藏Hugging Face2024-07-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ChuckMcSneed/NeoEvalPlusN_benchmark
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于评估语言模型性能的基准测试集,包含多个测试(B-test、C-test、D-test、P-test、S-test)。B-test、C-test和D-test主要评估模型执行命令的能力,而P-test和S-test则评估模型的创造性写作能力。每个测试都有不同的评分标准和目标。测试结果显示了不同模型的表现及其特点,如模型是否能够通过基本命令测试、创造性写作能力如何等。README还提到了测试的局限性,如测试仅进行一次、人为因素对结果的影响等。
提供机构:
ChuckMcSneed
原始信息汇总
数据集概述
数据集目的
- 旨在评估模型在执行命令和创意写作方面的能力,而非智能程度。
测试条件
- 所有测试在koboldcpp环境中执行。
- 测试参数设置:温度(temperature)和顶部概率(top P)约等于0,重复惩罚(rep. penalty)=1。
测试格式
- 使用模型适宜的格式进行测试,除非该格式不适用。



