GSM-Symbolic
收藏GSM-Symbolic 数据集概述
数据集简介
GSM-Symbolic 数据集是与研究论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》配套发布的数据集。该数据集包含 GSM-Symbolic、GSM-Symbolic-P1 和 GSM-Symbolic-P2 三个变体。
数据集资源
每个变体包含以下两个资源:
/templates:原始模板,用于生成数据。/generated_data:从模板生成的数据,每个模板生成 50 个实例。
数据格式
生成的数据集文件(例如 generated_data/GSM_symbolic.jsonl)包含以下字段:
id和instance:id是模板的 ID,instance是生成的样本 ID。question:模型需要回答的目标问题。answer:目标问题的答案。original_id:对应于 GSM8K-test 数据集中问题的 ID。original_question:对应于 GSM8K-test 数据集中的问题。original_answer:对应于 GSM8K-test 数据集中的答案。canary:用于检测未来数据污染/泄露的 canary 字符串。
实验复现
提示模板
使用以下提示模板进行评估:
As an expert problem solver, solve step by step the following mathematical questions.
Q: <SHOT_1_QUESTION> A: Lets think step by step. <SHOT_1_ANSWER>. The final answer is <SHOT_1_FINAL_ANSWER>. . . . Q: <SHOT_8_QUESTION> A: Lets think step by step. <SHOT_8_ANSWER>. The final answer is <SHOT_8_FINAL_ANSWER>.
Q: <TARGET_QUESTION> A: Lets think step by step.
解码策略
始终使用贪婪解码,并设置相应的参数(如 temperature=0, top_p=1)。
答案提取启发式
生成模型响应时,提取模型响应中的最后一个数值作为最终答案。
引用
@misc{gsm-symbolic, title = {GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models}, author = {Iman Mirzadeh and Keivan Alizadeh and Hooman Shahrokhi and Oncel Tuzel and Samy Bengio and Mehrdad Farajtabar}, year = {2024}, URL = {https://arxiv.org/abs/2410.05229} }




