five

GSM-Symbolic

收藏
github2024-12-09 更新2024-12-12 收录
下载链接:
https://github.com/apple/ml-gsm-symbolic
下载链接
链接失效反馈
官方服务:
资源简介:
GSM-Symbolic数据集包含用于生成数学推理问题的模板和生成的数据。每个生成的数据集文档包含字段如id、instance、question、answer、original_id、original_question、original_answer和canary。这些数据用于评估大型语言模型在数学推理中的性能。

The GSM-Symbolic dataset contains templates for generating mathematical reasoning problems and the generated data. Each generated dataset document includes fields such as id, instance, question, answer, original_id, original_question, original_answer and canary. This dataset is utilized to evaluate the performance of large language models in mathematical reasoning tasks.
创建时间:
2024-12-07
原始信息汇总

GSM-Symbolic 数据集概述

数据集简介

GSM-Symbolic 数据集是与研究论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》配套发布的数据集。该数据集包含 GSM-Symbolic、GSM-Symbolic-P1 和 GSM-Symbolic-P2 三个变体。

数据集资源

每个变体包含以下两个资源:

  1. /templates:原始模板,用于生成数据。
  2. /generated_data:从模板生成的数据,每个模板生成 50 个实例。

数据格式

生成的数据集文件(例如 generated_data/GSM_symbolic.jsonl)包含以下字段:

  • idinstanceid 是模板的 ID,instance 是生成的样本 ID。
  • question:模型需要回答的目标问题。
  • answer:目标问题的答案。
  • original_id:对应于 GSM8K-test 数据集中问题的 ID。
  • original_question:对应于 GSM8K-test 数据集中的问题。
  • original_answer:对应于 GSM8K-test 数据集中的答案。
  • canary:用于检测未来数据污染/泄露的 canary 字符串。

实验复现

提示模板

使用以下提示模板进行评估:

As an expert problem solver, solve step by step the following mathematical questions.

Q: <SHOT_1_QUESTION> A: Lets think step by step. <SHOT_1_ANSWER>. The final answer is <SHOT_1_FINAL_ANSWER>. . . . Q: <SHOT_8_QUESTION> A: Lets think step by step. <SHOT_8_ANSWER>. The final answer is <SHOT_8_FINAL_ANSWER>.

Q: <TARGET_QUESTION> A: Lets think step by step.

解码策略

始终使用贪婪解码,并设置相应的参数(如 temperature=0, top_p=1)。

答案提取启发式

生成模型响应时,提取模型响应中的最后一个数值作为最终答案。

引用

@misc{gsm-symbolic, title = {GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models}, author = {Iman Mirzadeh and Keivan Alizadeh and Hooman Shahrokhi and Oncel Tuzel and Samy Bengio and Mehrdad Farajtabar}, year = {2024}, URL = {https://arxiv.org/abs/2410.05229} }

搜集汇总
数据集介绍
main_image_url
构建方式
GSM-Symbolic数据集的构建基于原始模板生成,这些模板用于创建数学推理问题的实例。每个模板生成50个不同的实例,形成数据集的核心部分。数据生成过程尚未公开,但未来将发布相关工具。生成的数据集包括多个字段,如问题、答案、原始数据集的对应信息等,确保了数据的可追溯性和完整性。
特点
GSM-Symbolic数据集的显著特点在于其结构化的数据格式和丰富的元数据信息。每个数据实例不仅包含问题和答案,还附带了原始数据集的ID、问题和答案,以及用于防止数据泄露的canary字符串。此外,数据集的设计旨在评估大型语言模型在数学推理任务中的表现,具有高度的实验性和研究价值。
使用方法
使用GSM-Symbolic数据集时,研究者可以通过提供的模板生成数据,或直接使用已生成的数据进行模型评估。数据集的评估通常采用8-shot提示模板,并使用贪婪解码策略。答案提取采用特定的启发式方法,确保从模型响应中准确提取最终答案。数据集的结构化设计使得模型性能的评估和比较变得简便而高效。
背景与挑战
背景概述
GSM-Symbolic数据集由Iman Mirzadeh等人于2024年创建,旨在深入研究大型语言模型在数学推理方面的局限性。该数据集是基于GSM8K数据集的扩展,通过引入符号化问题,进一步挑战模型在复杂数学问题上的表现。主要研究人员来自Apple的机器学习研究团队,他们的核心研究问题是如何提升模型在数学推理任务中的准确性和鲁棒性。GSM-Symbolic的发布不仅为数学推理领域的研究提供了新的基准,还为模型评估和改进提供了宝贵的资源。
当前挑战
GSM-Symbolic数据集面临的挑战主要集中在两个方面。首先,构建过程中需要处理符号化问题的复杂性,确保生成的数据能够有效评估模型的数学推理能力。其次,在模型评估阶段,如何准确提取模型的最终答案并进行有效对比,是一个技术难点。此外,数据集的符号化设计要求模型具备更高的逻辑推理能力,这对现有模型的性能提出了更高的要求。
常用场景
经典使用场景
GSM-Symbolic数据集的经典使用场景主要集中在评估和提升大型语言模型在符号数学推理任务中的表现。通过提供一系列经过精心设计的数学问题及其对应的答案,研究者可以利用该数据集对模型进行微调或评估,以检验其在复杂数学推理任务中的准确性和鲁棒性。
衍生相关工作
基于GSM-Symbolic数据集,研究者们开发了多种改进大型语言模型数学推理能力的方法,如通过引入更复杂的提示策略和解码策略来提升模型的推理精度。此外,该数据集还激发了关于如何更好地评估和提升模型在符号推理任务中表现的研究,推动了相关领域的技术进步。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)的数学推理能力研究领域,GSM-Symbolic数据集的最新研究方向聚焦于揭示和克服这些模型在处理复杂数学问题时的局限性。通过提供多样化的数学问题模板和生成的实例,研究者们旨在评估和提升模型在符号推理、逻辑推理以及多步骤问题解决中的表现。这一研究不仅有助于理解LLMs在数学推理中的潜在缺陷,还为开发更强大的推理模型提供了宝贵的数据资源。此外,GSM-Symbolic的发布与评估方法,如贪婪解码策略和答案提取启发式,为未来在数学教育、自动化问题生成和模型性能评估等领域的应用奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作