reasoning-machines/gsm-hard|数学推理数据集|人工智能数据集

hugging_face2023-01-17 更新2024-03-04 收录

数学推理

人工智能

下载链接：

https://hf-mirror.com/datasets/reasoning-machines/gsm-hard

下载链接

链接失效反馈

资源简介：

这是gsm8k数学推理数据集的更难版本，通过将gsm8k问题中的数字替换为更大且不常见的数字来构建。数据集主要用于评估数学推理能力，包含训练集、开发集和测试集，每个集合包含输入问题、对应的代码解决方案和答案。数据集的语言为英语，涉及数字。

提供机构：

reasoning-machines

原始信息汇总

数据集概述

数据集基本信息

名称: gsm-hard
语言: 代码
许可证: MIT
多语言性: 单语
大小类别: 未知
源数据集: gsm8k (https://huggingface.co/datasets/gsm8k)
任务类别: text2text-generation
标签: 数学推理, 符号推理

数据集描述

概要: 这是gsm8k数学推理数据集的更难版本。通过替换GSM8K问题中的数字为更大且不常见的数字来构建此数据集。
支持的任务: 用于评估数学推理能力
语言: 英语 - 数字

数据集结构

数据加载: dataset = load_dataset("reasoning-machines/gsm-hard")
结构: 包含训练集，具有以下特征：
- input: 问题
- code: 对应问题的代码解决方案
- target: 答案
训练集大小: 1319行

引用信息

@article{gao2022pal, title={PAL: Program-aided Language Models}, author={Gao, Luyu and Madaan, Aman and Zhou, Shuyan and Alon, Uri and Liu, Pengfei and Yang, Yiming and Callan, Jamie and Neubig, Graham}, journal={arXiv preprint arXiv:2211.10435}, year={2022} }

AI搜集汇总

数据集介绍

构建方式

该数据集通过将原始GSM8K数学推理数据集中问题中的数字替换为更大且不常见的数字，构建了更为复杂的数学推理任务。这种替换旨在增加问题的难度，从而更有效地评估模型在处理复杂数学问题时的推理能力。

特点

gsm-hard数据集的主要特点在于其问题中使用了更大且不常见的数字，这显著提升了问题的复杂性和挑战性。此外，数据集包含了与每个问题相对应的代码解决方案，这为模型提供了明确的参考答案，便于进行精确的性能评估。

使用方法

使用该数据集时，用户可以通过加载数据集并访问'input'、'code'和'target'字段来获取问题、对应的代码解决方案以及正确答案。该数据集适用于评估模型在数学推理任务中的表现，特别是在处理复杂数字问题时的能力。

背景与挑战

背景概述

在自然语言处理领域，数学推理任务一直是研究的热点之一。reasoning-machines/gsm-hard数据集作为gsm8k数据集的扩展版本，由Luyu Gao等人于2022年提出，旨在通过引入更大且不常见的数字来提升数学推理任务的难度。该数据集的核心研究问题是如何在复杂的数学问题中，通过程序辅助的语言模型（PAL）实现更精确的推理。这一研究不仅推动了数学推理领域的发展，还为语言模型在符号推理中的应用提供了新的视角。

当前挑战

reasoning-machines/gsm-hard数据集的主要挑战在于其复杂性和新颖性。首先，替换为更大且不常见的数字增加了问题的难度，要求模型具备更强的数学推理能力。其次，构建过程中需要确保问题与代码解决方案之间的准确对应，这对数据标注的精确性提出了高要求。此外，该数据集的应用还面临如何有效评估模型在复杂数学推理任务中的表现，以及如何进一步提升模型推理能力的挑战。

常用场景

经典使用场景

reasoning-machines/gsm-hard数据集主要用于评估数学推理能力，特别是在处理复杂数学问题时的表现。该数据集通过将GSM8K数据集中常见的小数字替换为更大且不常见的数字，增加了问题的难度，从而为模型提供了更具挑战性的推理任务。这种设计使得该数据集成为测试和提升语言模型在数学推理方面能力的理想选择。

解决学术问题

该数据集解决了在数学推理领域中，现有数据集难以充分评估模型处理复杂数学问题能力的问题。通过引入更大且不常见的数字，gsm-hard数据集显著提升了问题的复杂性，使得研究者能够更准确地评估和比较不同模型在处理复杂数学推理任务时的表现。这一改进对于推动数学推理模型的发展具有重要意义。

衍生相关工作

基于gsm-hard数据集，研究者们开发了多种改进的数学推理模型，这些模型在处理复杂数学问题时表现出色。例如，一些研究通过结合程序辅助语言模型（PAL），显著提升了模型在gsm-hard数据集上的推理能力。此外，该数据集还激发了在符号推理和数学推理领域的进一步研究，推动了相关技术的快速发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库，包含超过130万条记录，涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录

红外谱图数据库

收集整理红外谱图实验手册等数据，建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中，原始红外谱图都进行了数字化处理，从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图，也可以提交谱图/谱峰数据，以检索与之相似的谱图数据，以协助进行谱图鉴定。

国家基础学科公共科学数据中心收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现，包括UIEB、U45和LSUI等数据集，用于支持水下图像增强的研究和开发。

github 收录