five

reasoning-machines/gsm-hard

收藏
Hugging Face2023-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reasoning-machines/gsm-hard
下载链接
链接失效反馈
官方服务:
资源简介:
这是gsm8k数学推理数据集的更难版本,通过将gsm8k问题中的数字替换为更大且不常见的数字来构建。数据集主要用于评估数学推理能力,包含训练集、开发集和测试集,每个集合包含输入问题、对应的代码解决方案和答案。数据集的语言为英语,涉及数字。

This is a more challenging variant of the GSM8K mathematical reasoning dataset, constructed by replacing the numerals in the original GSM8K questions with larger, less common numbers. This dataset is primarily designed to evaluate mathematical reasoning capabilities, and it includes training, development, and test sets. Each set contains input questions, corresponding code-based solutions, and final answers. The dataset is in English and involves numerical content.
提供机构:
reasoning-machines
原始信息汇总

数据集概述

数据集基本信息

  • 名称: gsm-hard
  • 语言: 代码
  • 许可证: MIT
  • 多语言性: 单语
  • 大小类别: 未知
  • 源数据集: gsm8k (https://huggingface.co/datasets/gsm8k)
  • 任务类别: text2text-generation
  • 标签: 数学推理, 符号推理

数据集描述

  • 概要: 这是gsm8k数学推理数据集的更难版本。通过替换GSM8K问题中的数字为更大且不常见的数字来构建此数据集。
  • 支持的任务: 用于评估数学推理能力
  • 语言: 英语 - 数字

数据集结构

  • 数据加载: dataset = load_dataset("reasoning-machines/gsm-hard")
  • 结构: 包含训练集,具有以下特征:
    • input: 问题
    • code: 对应问题的代码解决方案
    • target: 答案
  • 训练集大小: 1319行

引用信息

@article{gao2022pal, title={PAL: Program-aided Language Models}, author={Gao, Luyu and Madaan, Aman and Zhou, Shuyan and Alon, Uri and Liu, Pengfei and Yang, Yiming and Callan, Jamie and Neubig, Graham}, journal={arXiv preprint arXiv:2211.10435}, year={2022} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过将原始GSM8K数学推理数据集中问题中的数字替换为更大且不常见的数字,构建了更为复杂的数学推理任务。这种替换旨在增加问题的难度,从而更有效地评估模型在处理复杂数学问题时的推理能力。
特点
gsm-hard数据集的主要特点在于其问题中使用了更大且不常见的数字,这显著提升了问题的复杂性和挑战性。此外,数据集包含了与每个问题相对应的代码解决方案,这为模型提供了明确的参考答案,便于进行精确的性能评估。
使用方法
使用该数据集时,用户可以通过加载数据集并访问'input'、'code'和'target'字段来获取问题、对应的代码解决方案以及正确答案。该数据集适用于评估模型在数学推理任务中的表现,特别是在处理复杂数字问题时的能力。
背景与挑战
背景概述
在自然语言处理领域,数学推理任务一直是研究的热点之一。reasoning-machines/gsm-hard数据集作为gsm8k数据集的扩展版本,由Luyu Gao等人于2022年提出,旨在通过引入更大且不常见的数字来提升数学推理任务的难度。该数据集的核心研究问题是如何在复杂的数学问题中,通过程序辅助的语言模型(PAL)实现更精确的推理。这一研究不仅推动了数学推理领域的发展,还为语言模型在符号推理中的应用提供了新的视角。
当前挑战
reasoning-machines/gsm-hard数据集的主要挑战在于其复杂性和新颖性。首先,替换为更大且不常见的数字增加了问题的难度,要求模型具备更强的数学推理能力。其次,构建过程中需要确保问题与代码解决方案之间的准确对应,这对数据标注的精确性提出了高要求。此外,该数据集的应用还面临如何有效评估模型在复杂数学推理任务中的表现,以及如何进一步提升模型推理能力的挑战。
常用场景
经典使用场景
reasoning-machines/gsm-hard数据集主要用于评估数学推理能力,特别是在处理复杂数学问题时的表现。该数据集通过将GSM8K数据集中常见的小数字替换为更大且不常见的数字,增加了问题的难度,从而为模型提供了更具挑战性的推理任务。这种设计使得该数据集成为测试和提升语言模型在数学推理方面能力的理想选择。
解决学术问题
该数据集解决了在数学推理领域中,现有数据集难以充分评估模型处理复杂数学问题能力的问题。通过引入更大且不常见的数字,gsm-hard数据集显著提升了问题的复杂性,使得研究者能够更准确地评估和比较不同模型在处理复杂数学推理任务时的表现。这一改进对于推动数学推理模型的发展具有重要意义。
衍生相关工作
基于gsm-hard数据集,研究者们开发了多种改进的数学推理模型,这些模型在处理复杂数学问题时表现出色。例如,一些研究通过结合程序辅助语言模型(PAL),显著提升了模型在gsm-hard数据集上的推理能力。此外,该数据集还激发了在符号推理和数学推理领域的进一步研究,推动了相关技术的快速发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作