five

bench

收藏
Hugging Face2025-07-21 更新2025-07-22 收录
下载链接:
https://huggingface.co/datasets/Kurt232/bench
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含四个不同配置的数学和机器学习任务数据,分别为math_500、math_500_c、mmlu_pro和mmlu_pro_c。每个配置都包括测试集,其中有500或12032个示例,每个示例包含一个提示(prompt)和一个答案(answer)。
创建时间:
2025-07-15
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Kurt232/bench
  • 数据集地址: https://huggingface.co/datasets/Kurt232/bench

数据集配置

1. math_500

  • 特征:
    • prompt: string
    • answer: string
  • 数据分割:
    • test: 500个样本,532590字节
  • 下载大小: 215173字节
  • 数据集大小: 532590字节
  • 数据文件路径: math_500/test-*

2. math_500_c

  • 特征:
    • prompt: string
    • answer: string
  • 数据分割:
    • test: 500个样本,502090字节
  • 下载大小: 213395字节
  • 数据集大小: 502090字节
  • 数据文件路径: math_500_c/test-*

3. mmlu_pro

  • 特征:
    • prompt: string
    • answer: string
  • 数据分割:
    • test: 12032个样本,10676782字节
  • 下载大小: 4715716字节
  • 数据集大小: 10676782字节
  • 数据文件路径: mmlu_pro/test-*

4. mmlu_pro_c

  • 特征:
    • prompt: string
    • answer: string
  • 数据分割:
    • test: 12032个样本,9093633字节
  • 下载大小: 4629251字节
  • 数据集大小: 9093633字节
  • 数据文件路径: mmlu_pro_c/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在数学与专业学科知识评估领域,bench数据集通过精心设计的两个子集math_500和mmlu_pro构建而成。math_500子集包含500道数学题目及其标准答案,mmlu_pro子集则扩展至12032道涵盖专业学科的多选题。每个子集均设有原始版本及压缩版本(标注_c后缀),通过标准化文本格式存储prompt-answer对,确保数据结构统一且便于机器解析。数据文件按测试集划分存储,采用分块文件结构优化存取效率。
使用方法
研究者可通过HuggingFace数据集库直接加载特定配置,如'math_500'或'mmlu_pro_c',系统将自动处理分块文件合并。典型使用场景包括:将prompt字段输入模型生成回答,与answer字段进行自动化比对评估;利用压缩版本加速分布式训练过程。测试集划分设计特别适合模型零样本或少样本能力评测,用户亦可结合两个子集开展跨领域知识迁移研究。
背景与挑战
背景概述
BENCH数据集作为数学问题求解与多学科知识评估的重要资源,由专业研究团队构建于人工智能教育应用蓬勃发展的背景下。该数据集包含math_500和mmlu_pro两个核心模块,分别针对基础数学能力测试与专业学科综合评估设计,其中mmlu_pro子集覆盖12,032个测试样本,涉及多领域知识问答。数据集的构建体现了教育测评与机器学习交叉领域的研究趋势,通过标准化的prompt-answer对格式,为模型推理能力评估提供了可量化的基准平台。
当前挑战
该数据集面临的核心挑战主要存在于两个维度:在领域问题层面,数学符号的精确解析与多跳推理要求对现有模型的符号处理能力提出严峻考验,而mmlu_pro子集涉及的跨学科知识整合则需要模型具备知识迁移与融合能力。在构建过程中,如何平衡不同难度层级的题目分布、确保标准答案的绝对正确性,以及处理专业术语的歧义性问题,均对数据质量控制提出了极高要求。
常用场景
经典使用场景
在数学和通用知识评估领域,bench数据集以其精心设计的prompt-answer对成为模型性能测试的黄金标准。该数据集特别适用于验证语言模型在解决数学问题和跨学科知识问答中的推理能力,研究者通过分析模型在math_500和mmlu_pro子集上的表现,能够精确量化模型在形式逻辑和事实性知识掌握方面的优劣。
解决学术问题
该数据集有效解决了大语言模型评估中缺乏标准化数学推理测试的痛点,其500道数学题构成的子集填补了数值计算、代数推导等细分能力的评估空白。mmlu_pro扩展的12032个跨学科问题则突破了传统基准测试的学科局限,为衡量模型的知识广度和迁移学习能力提供了多维度的研究框架。
实际应用
教育科技领域正在利用该数据集开发智能辅导系统,通过比对学生答案与数据集中标准解题路径的差异,实现个性化学习指导。在金融风控场景中,基于mmlu_pro_c子集训练的模型展现出优秀的合规知识应用能力,可自动检测合同文本中的逻辑矛盾与法规冲突。
数据集最近研究
最新研究方向
在人工智能领域,数学问题求解和知识推理能力的评估一直是研究热点。bench数据集通过提供math_500和mmlu_pro等子集,为研究者们提供了丰富的数学问题和多学科知识测试样本。近期研究聚焦于如何利用该数据集提升大型语言模型在复杂数学推理和跨学科知识应用中的表现。特别是在mmlu_pro子集的应用中,研究者们探索了模型在专业领域知识上的迁移学习能力,这为通用人工智能的发展提供了重要参考。同时,该数据集也被用于评估模型在对抗性样本下的鲁棒性,相关研究推动了人工智能安全领域的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作