five

open-llm-leaderboard-old/details_AI-B__UTENA-7B-NSFW-V2

收藏
Hugging Face2024-01-14 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_AI-B__UTENA-7B-NSFW-V2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型AI-B/UTENA-7B-NSFW-V2时自动生成的,包含63个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果存储为特定的分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果,用于在Open LLM Leaderboard上计算和显示聚合指标。

该数据集是在评估模型AI-B/UTENA-7B-NSFW-V2时自动生成的,包含63个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果存储为特定的分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果,用于在Open LLM Leaderboard上计算和显示聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集简介

该数据集是在模型AI-B/UTENA-7B-NSFW-V2Open LLM Leaderboard上的评估运行期间自动创建的。

数据集结构

  • 配置数量:63个配置,每个配置对应一个评估任务。
  • 数据来源:数据集从1次运行中创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。
  • 最新结果:"train"分割始终指向最新的结果。
  • 结果汇总:一个额外的配置"results"存储所有运行的汇总结果,用于计算和显示在Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_AI-B__UTENA-7B-NSFW-V2", "harness_winogrande_5", split="train")

最新结果

以下是2024-01-14T11:48:04.187010运行的最新结果:

python { "all": { "acc": 0.638083652271864, "acc_stderr": 0.03246467430851539, "acc_norm": 0.6431039350752417, "acc_norm_stderr": 0.03311589246690635, "mc1": 0.3243574051407589, "mc1_stderr": 0.01638797677964794, "mc2": 0.47807391011550315, "mc2_stderr": 0.014833615164608181 }, "harness|arc:challenge|25": { "acc": 0.6015358361774744, "acc_stderr": 0.014306946052735565, "acc_norm": 0.6331058020477816, "acc_norm_stderr": 0.0140841331181043 }, "harness|hellaswag|10": { "acc": 0.6462856004779924, "acc_stderr": 0.004771447244095128, "acc_norm": 0.8454491137223661, "acc_norm_stderr": 0.003607372606295101 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.37, "acc_stderr": 0.048523658709391, "acc_norm": 0.37, "acc_norm_stderr": 0.048523658709391 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6, "acc_stderr": 0.042320736951515885, "acc_norm": 0.6, "acc_norm_stderr": 0.042320736951515885 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.6578947368421053, "acc_stderr": 0.03860731599316092, "acc_norm": 0.6578947368421053, "acc_norm_stderr": 0.03860731599316092 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.58, "acc_stderr": 0.049604496374885836, "acc_norm": 0.58, "acc_norm_stderr": 0.049604496374885836 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.6867924528301886, "acc_stderr": 0.028544793319055326, "acc_norm": 0.6867924528301886, "acc_norm_stderr": 0.028544793319055326 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7569444444444444, "acc_stderr": 0.03586879280080341, "acc_norm": 0.7569444444444444, "acc_norm_stderr": 0.03586879280080341 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.46, "acc_stderr": 0.05009082659620332, "acc_norm": 0.46, "acc_norm_stderr": 0.05009082659620332 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.5, "acc_stderr": 0.050251890762960605, "acc_norm": 0.5, "acc_norm_stderr": 0.050251890762960605 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.4, "acc_stderr": 0.04923659639173309, "acc_norm": 0.4, "acc_norm_stderr": 0.04923659639173309 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6473988439306358, "acc_stderr": 0.036430371689585475, "acc_norm": 0.6473988439306358, "acc_norm_stderr": 0.036430371689585475 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.47058823529411764, "acc_stderr": 0.04966570903978529, "acc_norm": 0.47058823529411764, "acc_norm_stderr": 0.04966570903978529 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.73, "acc_stderr": 0.04461960433384739, "acc_norm": 0.73, "acc_norm_stderr": 0.04461960433384739 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.574468085106383, "acc_stderr": 0.032321469162244675, "acc_norm": 0.574468085106383, "acc_norm_stderr": 0.032321469162244675 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.49122807017543857, "acc_stderr": 0.04702880432049615, "acc_norm": 0.49122807017543857, "acc_norm_stderr": 0.04702880432049615 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5448275862068965, "acc_stderr": 0.04149886942192118, "acc_norm": 0.5448275862068965, "acc_norm_stderr": 0.04149886942192118 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.41005291005291006, "acc_stderr": 0.02533120243894444, "acc_norm": 0.41005291005291006, "acc_norm_stderr": 0.02533120243894444 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.42857142857142855, "acc_stderr": 0.04426266681379909, "acc_norm": 0.42857142857142855, "acc_norm_stderr": 0.04426266681379909 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.42, "acc_stderr": 0.049604496374885836, "acc_norm": 0.42, "acc_norm_stderr": 0.049604496374885836 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7451612903225806, "acc_stderr": 0.024790118459332208, "acc_norm": 0.7451612903225806, "acc_norm_stderr": 0.024790118459332208 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5221674876847291, "acc_stderr": 0.03514528562175008, "acc_norm": 0.5221674876847291, "acc_norm_stderr": 0.03514528562175008 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.7, "acc_stderr": 0.046056618647183814, "acc_norm": 0.7, "acc_norm_stderr": 0.046056618647183814 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7757575757575758, "acc_stderr": 0.032568666616811015, "acc_norm": 0.7757575757575758, "acc_norm_stderr": 0.032568666616811015 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.7828282828282829, "acc_stderr": 0.029376616484945633, "acc_norm": 0.7828282828282829, "acc_norm_stderr": 0.029376616484945633 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.8652849740932642, "acc_stderr": 0.02463978909770944, "acc_norm": 0.8652849740932642, "acc_norm_stderr": 0.02463978909770944 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6410256410256411, "acc_stderr": 0.024321738484602354, "acc_norm": 0.6410256410256411, "acc_norm_stderr": 0.024321738484602354 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.31851851851851853, "acc_stderr": 0.02840653309060846, "acc_norm": 0.31851851851851853, "acc_norm_stderr": 0.0284065330906084

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估领域,open-llm-leaderboard/details_AI-B__UTENA-7B-NSFW-V2数据集的构建体现了自动化与标准化的结合。该数据集源自HuggingFace开放大模型排行榜对AI-B/UTENA-7B-NSFW-V2模型的一次系统性评估运行,通过预定义的评测框架自动生成。其构建过程以任务配置为核心,将涵盖常识推理、专业学科知识及数学解题等多元能力的63项评测任务,分别映射为独立的数据配置。每次评估运行均以时间戳标识并存储为特定数据切分,最新结果则统一归置于“train”切分下,确保了数据版本的清晰追溯与动态更新。
使用方法
对于致力于模型分析与性能评估的研究者而言,该数据集提供了清晰规范的调用路径。用户可通过HuggingFace的datasets库,使用load_dataset函数并指定数据集名称、目标配置(如“harness_winogrande_5”)及数据切分(通常为“train”)来加载所需数据。这种接口设计允许研究者灵活提取特定任务下的评估详情,或访问聚合配置以获取模型的整体性能指标。数据集的结构化存储与标准化访问方式,极大地便利了后续的统计分析、可视化呈现以及跨模型比较研究工作的开展。
背景与挑战
背景概述
在大型语言模型(LLM)快速发展的背景下,模型性能的标准化评估成为推动领域进步的关键。HuggingFace平台推出的Open LLM Leaderboard,作为一个开放、透明的基准测试框架,旨在系统性地衡量和比较不同语言模型在多样化任务上的能力。数据集‘open-llm-leaderboard-old/details_AI-B__UTENA-7B-NSFW-V2’正是这一框架下的产物,由AI-B机构于2024年1月创建,专门用于记录UTENA-7B-NSFW-V2模型在Leaderboard上的详细评估结果。该数据集涵盖了ARC挑战赛、HellaSwag、MMLU(HendrycksTest系列)以及TruthfulQA等多个核心评测任务,其核心研究问题在于如何通过多维度、细粒度的性能数据,客观反映模型在常识推理、专业知识、数学计算及真实性等方面的综合表现,从而为模型优化与学术研究提供可靠依据,对促进LLM评估的规范化和透明化具有重要影响力。
当前挑战
该数据集所针对的领域挑战在于,大型语言模型的评估需应对任务多样性与复杂性带来的难题。例如,在常识推理(如ARC、HellaSwag)中,模型需处理隐含逻辑与上下文依赖;在专业知识评测(如MMLU的数十个子领域)中,要求模型具备跨学科的深度理解;而数学推理(如GSM8K)与真实性(如TruthfulQA)任务则分别考验模型的精确计算能力与避免幻觉生成的能力。这些任务共同构成了对模型通用智能的严峻考验。在数据集构建过程中,挑战主要体现在评估流程的自动化与数据整合上:需确保来自不同评测框架(如Harness)的结果能够准确、一致地汇聚,并处理多轮评估中可能产生的任务覆盖差异,同时维护数据版本的清晰性(如通过时间戳分割),以保证结果的可复现性与可比性。
常用场景
经典使用场景
在大型语言模型评估领域,该数据集作为Open LLM Leaderboard评估流程的产物,其经典使用场景在于为研究人员提供模型性能的细粒度分析。通过涵盖ARC挑战赛、HellaSwag、MMLU以及TruthfulQA等多样化基准任务,该数据集能够系统性地评估模型在常识推理、语言理解、专业知识及真实性等多维度的能力表现,为模型间的横向对比与性能诊断奠定数据基础。
解决学术问题
该数据集有效解决了大型语言模型评估中标准化与可复现性的核心学术问题。通过整合多个权威评测基准并记录详细的评估结果,它为学术界提供了统一的模型性能度量框架,使得不同模型间的比较更具科学性与公正性。其意义在于推动了模型评估从单一指标向多维度、细粒度分析的范式转变,促进了模型能力研究的透明化与深度化。
实际应用
在实际应用层面,该数据集为模型开发者与使用者提供了关键的决策支持。开发者可以依据详细的评估结果,精准定位模型在特定任务(如数学推理、伦理判断或专业知识问答)上的优势与短板,从而指导后续的模型优化与微调方向。对于模型选型者而言,这些数据则构成了选择最适合特定应用场景(如教育辅助、内容审核或专业咨询)模型的重要依据。
数据集最近研究
最新研究方向
在大型语言模型评估领域,该数据集作为AI-B/UTENA-7B-NSFW-V2模型在Open LLM Leaderboard上的详细评测记录,反映了当前模型在多样化任务上的性能表现。前沿研究聚焦于通过多维度基准测试深入分析模型在专业知识、推理能力及伦理对齐等方面的表现,特别是在HendrycksTest涵盖的57个学科任务中,模型在社会科学与人文领域展现较高准确率,而在数学与形式逻辑等任务上存在提升空间。这一趋势与当前业界对模型专业化能力与安全对齐的热点议题紧密相连,为模型优化与领域适应性研究提供了实证基础,推动了开放评估生态的透明化与标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作