shuyuej/gsm8k_testing_promptcraft_generated

Name: shuyuej/gsm8k_testing_promptcraft_generated
Creator: shuyuej
Published: 2024-01-25 19:43:06
License: 暂无描述

Hugging Face2024-01-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/shuyuej/gsm8k_testing_promptcraft_generated

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含通过Prompt Craft Toolkit生成的`paraphrased questions`（释义问题）。用户可以通过`load_dataset`函数加载并查看数据集内容。

提供机构：

shuyuej

原始信息汇总

数据集构建

paraphrased questions 是通过 Prompt Craft Toolkit 生成的。

数据集使用

python from datasets import load_dataset

加载数据集

dataset = load_dataset("shuyuej/gsm8k_testing_promptcraft_generated") dataset = dataset["test"]

print(dataset)

引用

如果发现我们的工具包有用，请考虑在您的出版物中引用我们的仓库和工具包。我们提供以下 BibTeX 条目。 bibtex @misc{JiaPromptCraft23, author = {Jia, Shuyue}, title = {{PromptCraft}: A Prompt Perturbation Toolkit}, year = {2023}, publisher = {GitHub}, journal = {GitHub Repository}, howpublished = {url{https://github.com/SuperBruceJia/promptcraft}}, }

@misc{JiaAwesomeLLM23, author = {Jia, Shuyue}, title = {Awesome {LLM} Self-Consistency}, year = {2023}, publisher = {GitHub}, journal = {GitHub Repository}, howpublished = {url{https://github.com/SuperBruceJia/Awesome-LLM-Self-Consistency}}, }

@misc{JiaAwesomeSTS23, author = {Jia, Shuyue}, title = {Awesome Semantic Textual Similarity}, year = {2023}, publisher = {GitHub}, journal = {GitHub Repository}, howpublished = {url{https://github.com/SuperBruceJia/Awesome-Semantic-Textual-Similarity}}, }

搜集汇总

数据集介绍

构建方式

在数学推理领域，数据集的构建往往依赖于对原始问题的多样化改写，以增强模型的泛化能力。本数据集基于经典的GSM8K数学问题集，借助Prompt Craft工具包对原始问题进行语义保持的复述生成。该方法通过自动化提示工程技术，对每个原始数学问题施加多种语言层面的扰动，从而创造出语义等价但表达形式各异的变体。这种构建方式不仅保留了原始问题的数学逻辑与求解难度，还显著扩充了数据集的多样性，为评估模型在多样化语言表达下的推理稳定性提供了坚实基础。

特点

该数据集的核心特征在于其通过系统性提示工程生成的复述问题集合。这些问题在严格保持原始GSM8K问题数学内核与答案一致性的前提下，展现了丰富的语言表达变体。数据集中的每个条目都对应一个经过精心构造的语义等价表述，这为研究大型语言模型对问题表面形式变化的鲁棒性提供了理想测试平台。此类数据能够有效揭示模型是否真正理解问题背后的数学结构，抑或仅仅依赖于表面的语言模式匹配。

使用方法

研究人员可通过Hugging Face的`datasets`库便捷地加载此数据集。使用`load_dataset`函数并指定数据集名称，即可获取结构化的测试集。加载后的数据可直接用于评估数学推理模型在复述问题上的表现，通过对比模型在原始问题与其多种复述变体上的答案一致性，可以量化模型推理的稳定性与泛化能力。该流程无缝集成于现有评估框架，为数学问题求解领域的鲁棒性研究提供了标准化工具。

背景与挑战

背景概述

在大型语言模型（LLM）推理能力评估领域，数学问题求解是衡量模型逻辑思维与多步计算能力的关键任务。数据集shuyuej/gsm8k_testing_promptcraft_generated由研究者Shuyue Jia于2023年基于GSM8K数据集构建，旨在通过Prompt Craft Toolkit生成多样化的问题表述，以增强测试集的鲁棒性。该数据集的核心研究问题聚焦于评估LLM在语义等效但表述不同的数学问题上的表现稳定性，从而推动模型泛化能力与一致性研究的发展，对自然语言处理领域的评估方法学产生了积极影响。

当前挑战

该数据集旨在应对数学问题求解中模型对问题表述敏感性的挑战，即同一数学问题在不同语言表述下可能导致模型性能波动，这直接关系到评估结果的可靠性与泛化性。在构建过程中，挑战主要源于生成高质量、语义一致的释义问题，需确保生成内容在保持数学逻辑不变的同时，实现语言表达的多样性与自然性，避免引入偏差或噪声，这对生成技术的精确性与可控性提出了较高要求。

常用场景

经典使用场景

在数学推理与自然语言处理交叉领域，该数据集通过Prompt Craft工具包生成的改写问题，为大型语言模型在GSM8K数学问题求解任务上的鲁棒性评估提供了经典场景。研究者利用这些语义相近但表述多样的测试样本，系统检验模型对问题表述变化的敏感度，从而深入探究语言模型数学推理能力的泛化特性。

解决学术问题

该数据集有效应对了数学推理评估中单一表述可能导致的评估偏差问题，通过构建语义等价的多样化问题表述，为衡量模型真实推理能力提供了更科学的基准。其意义在于推动了对语言模型鲁棒性的量化研究，促进了评估方法从表面匹配向深层语义理解的转变，对构建可信赖的数学推理系统具有重要启示。

衍生相关工作

围绕该数据集构建的评估范式，衍生出多项关于提示工程与模型鲁棒性的经典研究。相关工作深入探索了语义保持改写对推理一致性的影响机制，推动了自洽性推理、语义文本相似性度量等技术的发展，并为构建更全面的数学推理评估体系提供了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集