five

gsm8k-platinum|数学推理数据集|自然语言处理数据集

收藏
huggingface2025-03-11 更新2025-03-12 收录
数学推理
自然语言处理
下载链接:
https://huggingface.co/datasets/madrylab/gsm8k-platinum
下载链接
链接失效反馈
资源简介:
GSM8K-Platinum是GSM8K测试集的修订版,GSM8K是一个包含小学生数学文字问题的数据集,旨在提供对数学推理能力的更准确评估。修订过程中,对每个示例运行了多种前沿模型,并对至少一个模型出错的示例进行了手动检查。对错误标记的示例修订了标签,并移除了判断为编写不当的问题。
创建时间:
2025-03-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
GSM8K-Platinum数据集的构建,是在原有GSM8K数据集的基础上,通过运用前沿模型对每个实例进行标注,并对至少一个模型出现错误的实例进行人工审查。人工审查过程中,对错误标注的实例进行修正,并移除问题陈述模糊不清的实例,从而提供一个更为精确的数学推理能力评估。
特点
该数据集的特点在于,它提供了一个更为干净和准确的数据集,通过人工审查和修正,减少了标签噪声,提高了数据集的质量。它保留了原始GSM8K数据集的结构,可以作为直接替代品使用,适用于评估大型语言模型在数学词汇问题上的推理能力。
使用方法
使用GSM8K-Platinum数据集时,可以直接通过HuggingFace的datasets库加载。用户首先需要安装datasets库,然后通过简短的代码即可加载测试集,进行模型训练或评估。数据集包含了问题、答案和清理状态等信息,方便用户进行进一步的数据处理和分析。
背景与挑战
背景概述
GSM8K-Platinum数据集是在2023年由MadryLab团队修订的,旨在为数学推理能力提供一个更为精确的评估工具。该数据集是对原有的GSM8K数据集的全面测试集进行修订,通过前沿模型对每个独立样本进行分析,并对至少一个模型出现错误的样本进行人工审查。修订过程中,对错误标记的样本进行标签修正,并移除问题陈述含糊不清的样本。GSM8K-Platinum的创建,不仅提供了一个可以替代原有gsm8k数据集的版本,而且通过减少标签噪声,促进了机器学习模型在数学字谜问题解决上的可靠性提升,对评估大型语言模型在数学推理任务上的表现具有显著影响。
当前挑战
GSM8K-Platinum数据集面临的挑战主要包括:1)解决数学字谜问题领域中的问题,如如何确保模型能够准确理解和解决具有多样性和复杂性的数学问题;2)在构建过程中,数据集的修订和清洗工作,如如何有效识别和修正标签错误,以及如何界定和移除问题陈述不清的样本,以保证数据集的质量和准确性。
常用场景
经典使用场景
在数学教育评估领域,GSM8K-Platinum数据集作为一项精准的评测工具,其经典使用场景主要在于评估大型语言模型对小学数学问题的理解和解决能力。通过该数据集,研究者能够深入分析模型在数学推理任务上的表现,进而提升模型在解决实际问题时的可靠性。
解决学术问题
GSM8K-Platinum数据集的推出,解决了传统数学问题数据集中存在的标签噪声问题,如错误标注或不明确的题目,这些问题往往导致模型性能评估的不准确。该数据集通过人工审核和修订,提高了数据质量,使研究者能够更加准确地评估模型的性能,推动了机器学习领域对可靠性和精准评估标准的追求。
衍生相关工作
基于GSM8K-Platinum数据集的研究,衍生出了一系列相关工作,如模型准确性验证、数学推理算法的开发和优化等。这些工作不仅推动了数学教育评估领域的发展,也为机器学习在数学问题解决上的应用提供了新的视角和方法论。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MUStARD++

MUStARD++是一个多模态讽刺检测数据集,由萨里大学创建,旨在通过语言、语音和视觉线索全面捕捉讽刺现象。数据集包含1202个视频样本,来源于多个流行电视节目,通过手动标注确保高质量的讽刺标签。创建过程中,研究者们通过多轮标注和验证确保数据的准确性和多样性。该数据集主要应用于自动讽刺检测,帮助机器理解并识别讽刺语境,解决讽刺识别中的多模态挑战。

arXiv 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集

OpenDataLab 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录