Cleanlab/bad_data_gsm8k_svamp.csv

Name: Cleanlab/bad_data_gsm8k_svamp.csv
Creator: Cleanlab
Published: 2024-04-25 22:06:53
License: 暂无描述

Hugging Face2024-04-25 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Cleanlab/bad_data_gsm8k_svamp.csv

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集描述了在GSM8K和SVAMP这两个流行的LLM基准测试数据集中发现的一些错误数据。这些错误数据包含在数学问题基准数据集中，并且提供了错误的答案，因此不应用于评估AI模型。通过使用Cleanlab的Trustworthy Language Model (TLM)自动检测这些错误数据，并为每个示例提供了TLM的可信度评分。README中还提供了两个具体的错误示例，分别来自GSM8K和SVAMP数据集，并指出了数据集中的错误答案以及实际正确的答案。

提供机构：

Cleanlab

原始信息汇总

数据集概述

数据集来源

包含错误数据的数据集：GSM8K 和 SVAMP。

数据问题描述

数据集中的数学问题答案错误。
不应使用这些错误数据来评估AI模型。

错误检测方法

使用Cleanlab的Trustworthy Language Model (TLM)自动检测错误。
TLM为每个示例提供信任度分数。

示例错误

GSM8K数据集中的错误示例

问题：After scoring 14 points, Erin now has three times more points than Sara, who scored 8. How many points did Erin have before?
数据集答案：18
TLM信任度分数：0.000961
实际答案：10

SVAMP数据集中的错误示例

问题：Rachel’s tree had 4 apples. She picked 2 apples from her tree. Thereafter 3 new apples grew on the tree. How many apples are there on the tree now?
数据集答案：1
TLM信任度分数：0.001508
实际答案：5

搜集汇总

数据集介绍

构建方式

在数学推理基准数据集的质量控制领域，Cleanlab/bad_data_gsm8k_svamp.csv 数据集的构建体现了自动化错误检测的前沿方法。该数据集通过应用 Cleanlab 的 Trustworthy Language Model (TLM) 技术，对广泛使用的 GSM8K 和 SVAMP 基准数据集进行了系统性扫描。TLM 模型为每个示例生成了一个可信度分数，从而自动识别出其中答案标注错误的数学问题。构建过程并非依赖人工逐一核查，而是基于模型对答案一致性与逻辑合理性的概率评估，高效筛选出存在明显矛盾的样本，最终汇编成一个专门用于标识错误数据的集合。

特点

该数据集的核心特点在于其聚焦于基准数据集中隐藏的标注噪声，为评估数据的可靠性提供了关键参考。它包含了从 GSM8K 和 SVAMP 中自动发现的错误示例，每个条目不仅提供了原始问题和错误答案，还附有 TLM 模型计算的可信度分数以及研究者核实后的正确答案。这种结构使得数据集不仅是一个错误清单，更成为研究标注质量、模型鲁棒性以及自动检测算法性能的宝贵资源。其内容直接关联两个主流数学推理基准，具有明确的针对性和较高的实用价值。

使用方法

在机器学习模型评估与数据清洗的研究中，该数据集主要服务于质量验证与基准修正的目的。研究人员可以将其作为参考，从原始的 GSM8K 或 SVAMP 数据集中排除这些已标识的错误样本，从而构建更纯净、可靠的评估子集，确保模型性能比较的公平性。同时，数据集中提供的 TLM 可信度分数可用于分析自动错误检测方法的有效性，或作为后续开发更精准的数据清洗工具的基准。使用时应严格遵循其设计初衷，即用于识别和排除不良数据，而非作为模型训练的直接素材。

背景与挑战

背景概述

在大型语言模型（LLM）的评估领域，数学推理能力是衡量模型智能水平的关键维度之一。GSM8K与SVAMP作为广泛使用的数学问题基准数据集，分别由OpenAI与独立研究者创建，旨在测试模型解决多步骤数学问题的能力。这些数据集自发布以来，已成为评估LLM数学推理性能的标准工具，对推动自然语言处理与人工智能研究的发展产生了深远影响。然而，随着研究的深入，数据集中的潜在错误逐渐显现，Cleanlab团队通过其可信语言模型技术，系统性地识别并公开了其中存在错误标注的样本，为数据质量的提升提供了重要参考。

当前挑战

该数据集所针对的核心挑战在于确保数学推理基准数据的准确性与可靠性，以支持对大型语言模型性能的公正评估。具体而言，构建过程中面临的挑战包括：数据标注过程中可能出现的人为疏忽或逻辑错误，导致答案与问题不匹配；以及自动化检测错误数据时，需开发高效且精确的算法来识别隐蔽的标注偏差。这些挑战凸显了在复杂领域构建高质量评估数据集的难度，同时也促进了数据清洗与验证技术的发展。

常用场景

经典使用场景

在自然语言处理领域，数据集的质量直接关系到模型评估的可靠性与有效性。Cleanlab/bad_data_gsm8k_svamp.csv数据集聚焦于数学推理基准测试中的错误标注问题，其经典使用场景在于为研究人员提供自动化检测工具，以识别并剔除GSM8K和SVAMP等流行数学问题数据集中的错误答案。通过引入信任度评分机制，该数据集帮助学者在模型训练与评估过程中，避免因数据噪声导致的性能偏差，从而提升基准测试的严谨性。

解决学术问题

该数据集的核心价值在于解决了数学推理任务中数据标注错误的学术难题。传统基准数据集如GSM8K和SVAMP广泛用于评估大语言模型的数学能力，但其中隐含的错误答案可能误导模型性能分析。Cleanlab/bad_data_gsm8k_svamp.csv通过自动化检测技术，系统性地识别并标注这些错误，为学术界提供了可靠的数据清洗范例。这不仅增强了评估结果的公信力，还推动了数据质量监控方法的发展，对提升自然语言处理研究的可重复性具有深远意义。

衍生相关工作

围绕数据质量检测主题，该数据集衍生了一系列经典研究工作。例如，基于Cleanlab的Trustworthy Language Model技术，学者们进一步开发了针对多领域文本数据的错误检测框架，扩展至代码生成或科学文献分析任务。相关研究还探索了半监督学习与主动学习结合的方法，利用信任度评分优化数据标注流程。这些工作不仅深化了数据清洗理论，还促进了如Data-Centric AI等新兴范式的发展，为构建更稳健的机器学习系统奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集