five

vmlu-v1-5

收藏
Hugging Face2025-05-31 更新2025-06-01 收录
下载链接:
https://huggingface.co/datasets/danganhdat/vmlu-v1-5
下载链接
链接失效反馈
官方服务:
资源简介:
VMLU数据集是一个专门为评估基础模型整体能力而设计的人类中心基准测试集,尤其关注越南语。这个全面的基准测试集包含10880个选择题,涵盖58个不同科目,分布在四个主要领域:STEM(科学、技术、工程和数学)、人文科学、社会科学以及其他。它涵盖了从基础水平到高级专业知识的广泛难度水平,挑战基础模型在一般知识和复杂问题解决方面的能力。
创建时间:
2025-05-29
原始信息汇总

VMLU-v1-5 数据集概述

数据集基本信息

数据集结构

特征

  • id: 字符串类型
  • category: 字符串类型
  • question: 字符串类型
  • choices: 字符串序列
  • answer_key: 字符串类型
  • answer: 字符串类型

数据划分

划分 样本数量 数据大小(字节)
测试集 9833 3638380
训练集 303 111694
验证集 744 285955

下载信息

  • 下载大小: 1663510 字节
  • 数据集大小: 4036029 字节

数据集内容

概述

VMLU是一个以人为中心的基准测试套件,专门用于评估基础模型的整体能力,尤其关注越南语。该基准包含10,880个多项选择题,涵盖58个不同学科,分布在四个主要领域:STEM、人文、社会科学和其他。

学科分类

  • STEM: 21个学科(如初等数学、计算机架构等)
  • 社会科学: 11个学科(如宏观经济学、社会学等)
  • 人文: 17个学科(如越南文化与文学、世界文明史等)
  • 其他: 9个学科(如会计、临床药理学等)

难度级别

  • 小学水平
  • 初中水平
  • 高中水平
  • 专业水平(本科及研究生考试标准)

数据格式

  • JSONL格式: 包含58个学科的名称处理程序及对应的英文/越南文名称。
  • 问题格式: 提供LaTeX和非LaTeX两种格式。

数据来源

数据集主要来自各类教育机构的考试题目,包括小学、初中、高中和大学,部分数据来自教育部组织的高中毕业考试。

搜集汇总
数据集介绍
main_image_url
构建方式
在越南教育评估体系日益受到国际关注的背景下,VMLU-v1-5数据集通过系统整合多层级教育机构的权威考试资料构建而成。其数据源覆盖小学至大学阶段的标准化测试,包括教育部组织的高中毕业考试,确保了题目的专业性和代表性。构建过程采用分层抽样策略,将58门学科按STEM、人文、社会科学及其他领域分类,每学科平均包含约200道多选题,最终形成包含10,880个样本的标准化集合。数据经过严格的清洗与格式统一,同时提供LaTeX和纯文本双版本,兼顾学术研究与应用开发的兼容性需求。
特点
作为面向越南语基础模型的综合性评估基准,该数据集展现出鲜明的层次化知识体系特征。其题目难度梯度覆盖从基础教育到专业认证的四个等级,包括小学、初中、高中及专业级水平,有效模拟了真实教育场景中的能力进阶路径。学科分布呈现跨领域平衡特点,STEM领域包含离散数学、计算机架构等21门学科,社会科学涵盖宏观经济学、马克思主义原理等11门课程,人文领域涉及法律体系、越南文化等16个方向,另设会计、药学等10门职业化科目。这种多维度的学科架构为模型能力评估提供了立体化观测视角。
使用方法
针对人工智能模型的系统性评估需求,数据集采用标准化JSONL格式组织,每个样本包含题目ID、学科分类、问题题干、选项序列及标准答案等结构化字段。研究者可通过HuggingFace平台直接加载数据分割,利用内置的训练集(303样本)、验证集(744样本)和测试集(9833样本)进行模型微调与性能验证。实际应用中建议采用交叉学科评估策略,通过分析模型在不同难度层级和学科领域的表现差异,全面衡量其知识掌握广度与推理深度。对于特定研究方向,可基于学科分类字段进行子集提取,实现聚焦式能力诊断。
背景与挑战
背景概述
VMLU数据集作为越南语言人工智能领域的重要基准,由ZaloAI-Jaist团队于近年开发,旨在系统评估基础模型在越南语环境下的综合认知能力。该数据集涵盖STEM、人文科学、社会科学及其他四大领域的58个学科,共计10,880道多选题,题目来源横跨基础教育至高等教育的权威考试体系。其构建融合了教育测量学与自然语言处理技术,通过分层难度设计映射从基础素养到专业阶层的知识谱系,为越南语大模型的能力校准提供了标准化评估框架。
当前挑战
该数据集核心挑战在于解决越南语多学科知识推理的复杂性,需应对专业术语的跨领域歧义消除、文化语境依赖的语义理解,以及从数学公式到法律条文的多模态知识表征。构建过程中面临教育数据采集的异构性挑战,包括不同层级考试题目的标准化转换、非拉丁字符的语义一致性维护,以及在高阶专业领域保证学术准确性与语言自然性的平衡。此外,数据标注需克服越南语语法结构与逻辑关联的特殊性,确保多选题选项的干扰项设计符合认知科学规律。
常用场景
经典使用场景
在越南语自然语言处理领域,VMLU-v1-5数据集作为一项综合性基准测试工具,主要用于评估基础模型在多学科知识理解与推理方面的能力。该数据集通过涵盖STEM、人文、社会科学等58个学科的10880道多选题,系统检验模型从基础教育到专业层级的语言掌握水平。研究者通常利用其分层难度结构,对模型进行跨学科知识整合与逻辑推理性能的纵向对比分析。
解决学术问题
该数据集有效解决了越南语智能体评估体系缺失的学术难题,为衡量模型文化适应性与领域知识迁移能力提供量化标准。通过模拟真实教育考试场景,它助力研究者突破语言模型在专业术语理解、跨学科推理等方面的技术瓶颈,显著推进了低资源语言人工智能研究的可复现性与可比性。其分层设计更深化了对模型认知边界与知识泛化能力的机理探索。
衍生相关工作
基于该数据集衍生的经典研究包括ZaloAI团队开发的越南语大模型能力评估框架,其提出的多粒度评分机制已成为领域标准。后续研究进一步构建了结合课程知识图谱的增强版基准,推动了跨语言模型迁移学习技术的发展。诸多工作还探索了将VMLU与国际通用基准的对比分析方法,为东南亚语言AI研究树立了范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作