five

GAOKAO-Bench|中国高考数据集|测评数据集数据集

收藏
arXiv2024-02-24 更新2024-06-21 收录
中国高考
测评数据集
下载链接:
https://github.com/OpenLMLab/GAOKAO-Bench
下载链接
链接失效反馈
资源简介:
GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。

GAOKAO-Bench is a dataset created by the School of Computer Science and Technology at Fudan University, encompassing all subjects' questions from the Chinese Gaokao examination from 2010 to 2022, totaling 2811 questions. The dataset includes 1781 objective questions and 1030 subjective questions, featuring a variety of question types such as single-choice, fill-in-the-blanks, error correction, and open-ended questions. The questions in PDF format were converted to JSON files using automated scripts and manual annotation, with mathematical formulas converted to LATEX format. GAOKAO-Bench is designed to provide a comprehensive and practical assessment benchmark for large language models, particularly in their performance on addressing questions related to the Chinese Gaokao.
提供机构:
复旦大学计算机科学与技术学院
创建时间:
2023-05-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
GAOKAO-Bench数据集的构建基于中国高考(GAOKAO)的试题,涵盖了从2010年至2022年的所有科目。通过自动化脚本和人工注释相结合的方式,将PDF格式的试题转换为JSON文件格式,并确保数学公式以LATEX格式呈现。数据集包括主观题和客观题,共计2811道题目,其中1030道为主观题,1781道为客观题。
特点
GAOKAO-Bench数据集的特点在于其全面性和直观性,涵盖了高考中的多种题型,包括单选题、填空题、改错题和开放性问题等。此外,数据集采用了零样本设置的方法来评估大型语言模型(LLMs)的性能,确保评估方法与人类考试方式相一致。
使用方法
GAOKAO-Bench数据集可用于评估大型语言模型在高考题型上的表现,包括客观题和主观题。使用者可以通过提供的JSON格式数据进行模型训练和测试,利用零样本设置策略来模拟人类考试环境。此外,数据集还提供了人工注释的评分标准,可用于进一步验证模型的评分一致性。
背景与挑战
背景概述
GAOKAO-Bench数据集是由复旦大学和华东师范大学联合开发,旨在评估大型语言模型(LLMs)在中国高考(GAOKAO)中的表现。该数据集创建于2023年,主要研究人员包括Xiaotian Zhang、Chunyang Li和Xipeng Qiu等。其核心研究问题是全面且准确地评估LLMs在处理中国高考题目中的能力,特别是主观题和客观题的表现。GAOKAO-Bench的推出填补了现有评估基准中缺乏主观题的空白,为未来LLMs的评估提供了强有力的工具,并对教育评估领域产生了深远影响。
当前挑战
GAOKAO-Bench数据集面临的挑战包括:1) 如何有效评估LLMs在复杂主观题上的表现,这需要高度的语义理解和推理能力;2) 数据集构建过程中,如何确保题目的高质量和多样性,以及如何处理从PDF格式转换为JSON格式时可能出现的技术问题。此外,由于高考题目的高度保密性,获取和处理这些数据也带来了法律和伦理上的挑战。
常用场景
经典使用场景
GAOKAO-Bench数据集的经典使用场景在于评估大型语言模型(LLMs)在高考题目上的表现。通过包含主观和客观题目的综合测试,该数据集能够全面评估LLMs在知识掌握、逻辑推理和写作能力等方面的表现。
衍生相关工作
GAOKAO-Bench数据集的推出催生了多项相关研究工作,包括对LLMs在不同学科表现差异的深入分析、LLMs作为主观题目评分工具的可行性研究等。这些研究为进一步优化和扩展LLMs的应用提供了宝贵的数据支持。
数据集最近研究
最新研究方向
近年来,GAOKAO-Bench数据集在评估大型语言模型(LLMs)的性能方面取得了显著进展。该数据集利用中国高考题目作为测试样本,涵盖了主观和客观问题,旨在全面准确地评估LLMs的表现。研究者们设计了基于零样本设置的方法,以模拟人类考试方式,并通过人工评分获得LLMs的总分。研究发现,LLMs在中国高考中取得了竞争性分数,但在不同科目间存在显著的性能差异。此外,LLMs在主观题评分上与人类评分具有中等程度的一致性。这一研究为未来大型语言模型的评估提供了坚实的基准,并揭示了这些模型的优势与局限性。
相关研究论文
  • 1
    Evaluating the Performance of Large Language Models on GAOKAO Benchmark复旦大学计算机科学与技术学院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

鸭绿江流域与水系 – 世界地理数据大百科辞条

鸭绿江流域是指鸭绿江干流和支流汇水区,地理位置为39&deg43′57″N-42&deg17′28″N,123&deg35′59″E-128&deg45′50″E。与其接壤的流域分别是辽河流域(东)、松花江流域(北)、图们江流域(北)、大同江流域(西南)等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始,向西南经长白山脉、转向西南至千山山脉的北部,再折向南入海;在朝鲜境内,鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉,在头流山(2309 m)转向西南方向的赴战岭山脉,在英雄里附近转向西,经狼林山(2184 m)、广城、松源,转向西南方向的狄逾岭山脉,接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km&sup2,其中,中国境内面积32799.22 km&sup2,朝鲜境内面积32416.27 km&sup2。鸭绿江是中(国)朝(鲜)界河,它起源于长白山天池火山口的南壁,向南经惠山(朝)、折向西经临江(中)、再转向西南直向丹东(中)、新义州(朝),最后在东港(中)和多狮里(朝)附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km,有几条比较大的支流汇入,包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川;在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市;辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市;朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山,最高海拔2745 m,河道比降比较大,达到0.0032,其中在中段可达到0.01。丰富的降水补给和较大的河床比降,使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来,流域内先后建造了水丰水库(中、朝)、渭源水库(中、朝)、铁甲水库(中)、太平哨水库(中)、桓仁水库(中)、回龙山水库(中)、满丰湖水库(朝)、版平里水库(朝)、时中湖水库(朝)、狼林湖水库(朝)、长津湖水库(朝)、赴战湖水库(朝)、丰西湖水库等(朝)。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储,数据量43.8 MB(压缩为20.1 MB)。

国家对地观测科学数据中心 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

DFT dataset for high entropy alloys

我们的DFT数据集涵盖了由八种元素组成的bcc和fcc结构,包括所有可能的2至7元合金系统。该数据集在Zenodo上公开可用,包含初始和最终结构、形成能量、原子磁矩和电荷等属性。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录