five

GSM-Symbolic

收藏
Hugging Face2024-12-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/apple/GSM-Symbolic
下载链接
链接失效反馈
官方服务:
资源简介:
GSM-Symbolic数据集是伴随研究论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》发布的,旨在评估大型语言模型在数学推理方面的局限性。数据集包含三个变体:GSM-Symbolic、GSM-Symbolic-P1和GSM-Symbolic-P2,分别对应不同的难度级别。每个变体的数据文件包含多个字段,如id、instance、question、answer等,用于评估模型的数学推理能力。数据集的生成和使用方法在README中有详细说明,包括如何加载数据、数据格式以及如何复现实验结果。

The GSM-Symbolic dataset was released alongside the research paper *GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models*, aiming to evaluate the limitations of large language models (LLMs) in mathematical reasoning. The dataset includes three variants: GSM-Symbolic, GSM-Symbolic-P1, and GSM-Symbolic-P2, corresponding to different difficulty levels. Each variant's data file contains multiple fields such as id, instance, question, answer, etc., which are used to evaluate the mathematical reasoning capabilities of models. Detailed guidelines for the dataset's generation and usage are provided in the README, including how to load the data, the data format, and how to reproduce experimental results.
提供机构:
Apple
创建时间:
2024-12-09
搜集汇总
数据集介绍
main_image_url
构建方式
GSM-Symbolic数据集的构建基于对GSM8K测试集的扩展与变体设计,旨在评估大型语言模型在数学推理任务中的局限性。该数据集通过引入额外的子句(clause)来增加问题的复杂性,形成了GSM-Symbolic、GSM-Symbolic-P1和GSM-Symbolic-P2三个变体。每个变体的问题数量与GSM8K保持一致,但通过增加子句数量,逐步提升问题的难度。数据集的生成过程包括从模板中生成实例,并将模型的响应按实例ID进行分组,以便于后续的性能评估。
特点
GSM-Symbolic数据集的主要特点在于其层次化的难度设计,通过增加子句数量来区分不同难度的变体,从而能够系统性地评估模型在数学推理任务中的表现。此外,数据集保留了GSM8K的原始问题和答案格式,确保了与现有基准的兼容性。数据集中还包含了一个canary字符串,用于检测潜在的数据泄露问题,体现了数据集构建的严谨性。
使用方法
使用GSM-Symbolic数据集时,用户可以通过HuggingFace的`datasets`库加载不同变体的数据,如默认的GSM-Symbolic、GSM-Symbolic-P1和GSM-Symbolic-P2。加载代码示例如下:`ds_main = load_dataset('apple/GSM-Symbolic', name='main')`。数据集的每个文档包含问题、答案、原始问题ID等信息,用户可以根据这些字段进行模型评估。此外,数据集还提供了提示模板和解码策略,便于用户复现实验结果。
背景与挑战
背景概述
GSM-Symbolic数据集由Apple公司的研究团队于2024年创建,旨在深入探讨大型语言模型在数学推理方面的局限性。该数据集基于GSM8K数据集,通过引入更复杂的数学问题变体(如GSM-Symbolic-P1和GSM-Symbolic-P2),进一步挑战模型的推理能力。其核心研究问题聚焦于如何通过增加问题的复杂性来评估和提升模型在数学推理任务中的表现。该数据集的发布不仅为学术界提供了一个新的基准,还为未来在数学推理领域的模型优化提供了宝贵的实验数据。
当前挑战
GSM-Symbolic数据集面临的挑战主要集中在两个方面。首先,构建过程中需要设计并生成具有不同复杂度的问题,这要求研究人员在保持问题多样性的同时,确保问题的难度梯度合理。其次,评估模型在复杂数学问题上的表现时,如何准确提取模型的最终答案并进行有效评估也是一个技术难题。此外,数据集的发布还面临潜在的数据污染风险,因此引入了canary字符串以确保数据的安全性。
常用场景
经典使用场景
GSM-Symbolic数据集在评估大型语言模型(LLMs)的数学推理能力方面具有经典应用场景。通过提供结构化的数学问题和对应的答案,该数据集允许研究者系统地测试和比较不同模型在处理复杂数学问题时的表现。特别是,GSM-Symbolic-P2变体因其增加了问题的复杂性,成为评估模型在高难度数学推理任务中性能的首选数据集。
解决学术问题
GSM-Symbolic数据集解决了大型语言模型在数学推理任务中的局限性问题。通过提供多样化和复杂化的数学问题,该数据集帮助研究者识别和量化模型在处理多步骤推理、符号运算和逻辑推理时的不足。这不仅推动了对模型推理机制的深入理解,还为开发更强大的数学推理模型提供了宝贵的基准。
衍生相关工作
GSM-Symbolic数据集的发布催生了一系列相关的经典工作。研究者们基于该数据集开发了多种改进的数学推理模型,探索了不同的提示策略和解码方法。此外,该数据集还被广泛用于评估和比较不同大型语言模型在数学推理任务中的性能,推动了该领域的技术进步和创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作