five

NoRa

收藏
github2024-11-12 更新2024-11-28 收录
下载链接:
https://github.com/tmlr-group/NoisyRationales
下载链接
链接失效反馈
官方服务:
资源简介:
NoRa数据集专为评估在存在噪声理由的情况下,大型语言模型在链式思维提示中的推理鲁棒性而构建。该数据集包含噪声问题和噪声理由,用于测试现有模型的鲁棒性和现有鲁棒方法的有效性。

The NoRa dataset is specifically constructed to evaluate the reasoning robustness of large language models (LLMs) when applying chain-of-thought prompting in the presence of noisy rationales. This dataset includes both noisy questions and noisy rationales, and it is used to test the robustness of existing models and the effectiveness of existing robust methods.
创建时间:
2024-10-30
原始信息汇总

NoisyRationales 数据集概述

数据集简介

NoisyRationales 数据集旨在评估大型语言模型(LLMs)在链式思维提示中处理噪声理由(noisy rationales)的鲁棒性。噪声理由包括在上下文学习中使用的示例中包含的不相关或不准确的推理思路。

数据集结构

  • data/: 包含原始数据集和预处理数据集
    • 原始数据集用于生成
    • 预处理数据集用于实验
  • data_process/: 数据集处理和操作的库和工具
  • method/: 不同噪声处理方法的实现
    • 处理链式思维提示中噪声理由的各种方法
  • llm_model/: 不同大型语言模型的接口
    • 与各种LLMs交互的包装器和工具
  • noise_test.py: 测试噪声理由处理的主要实验脚本
  • config.yml: 实验设置的配置文件
    • 模型参数
    • 数据集选项
    • 测试配置

数据集任务类别

  • Math: 包括 base-9 和 base-11 子任务
  • Symbolic: 包括 equal 和 longer 子任务
  • Commonsense: 无子任务

实验运行

运行选项

  • 使用配置文件(推荐): 配置 config.yml 并运行 python noise_test.py
  • 命令行参数(快速启动): 使用命令行参数运行实验

参数示例

  • task_subtask: math_base-9, math_base-11, symbolic_equal, symbolic_longer, commonsense
  • method: basemodel, CD-CoT, smoothllm, selfdenoise, selfpolish, contrastivecot, ISC, SCO, BT
  • noise-type: irrelevant, inaccurate
  • difficulty: easy, medium, hard
  • model: gpt-3.5-turbo-0125
  • test_num: 100

结果存储

实验结果将存储在 ./results/{task}/{subtask}/{model}/{method}/ 目录下。

引用

如需引用该数据集,请使用以下格式:

@inproceedings{zhou2024can, title={Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales?}, author={Zhou, Zhanke and Tao, Rong and Zhu, Jianing and Luo, Yiwen and Wang, Zengmao and Han, Bo}, booktitle={The Thirty-eighth Annual Conference on Neural Information Processing Systems}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
NoRa数据集的构建旨在评估大型语言模型(LLMs)在链式思维提示中处理噪声理由的鲁棒性。该数据集通过引入包含无关或不准确推理思路的示例,模拟了实际应用中可能遇到的噪声环境。构建过程中,研究团队精心设计了多种噪声类型和难度级别,确保数据集能够全面反映LLMs在不同噪声条件下的表现。
特点
NoRa数据集的主要特点在于其针对性和复杂性。它不仅包含了传统的数学和符号推理任务,还引入了常识推理,以测试模型在多领域中的泛化能力。此外,数据集中的噪声理由设计精细,既有关联性噪声,也有不准确性噪声,这使得模型在处理复杂推理任务时面临更大的挑战。
使用方法
使用NoRa数据集进行实验时,用户可以通过配置文件或命令行参数来指定不同的任务、模型和噪声类型。推荐使用配置文件进行详细设置,以确保实验的可重复性和精确性。实验结果将存储在指定的目录中,便于后续分析和比较。此外,数据集支持多种LLMs的接口,用户可以根据需要选择合适的模型进行测试。
背景与挑战
背景概述
NoRa数据集由Zhou等人于2024年创建,旨在探索大型语言模型(LLMs)在链式思维提示中处理噪声理由的能力。该数据集的核心研究问题是评估在存在不相关或不准确推理思维的情况下,LLMs的推理鲁棒性。NoRa数据集的构建标志着在语言模型推理领域的一次重要进展,揭示了当前LLMs在面对噪声理由时的普遍脆弱性,并对现有鲁棒方法如自我修正和自我一致性提出了挑战。
当前挑战
NoRa数据集面临的挑战主要集中在两个方面:一是解决领域问题,即在链式思维提示中处理噪声理由的复杂性;二是数据集构建过程中遇到的实际问题,如如何有效生成和标注噪声理由。具体挑战包括:1) 现有鲁棒方法在处理噪声理由时的有限效能;2) 需要外部监督来增强模型的去噪推理能力;3) 在实际应用中,如何最小化去噪提示的需求,同时保持推理的准确性。
常用场景
经典使用场景
NoRa数据集在评估大型语言模型(LLMs)在链式思维提示中处理噪声推理路径的能力方面具有经典应用。通过提供包含无关或不准确推理步骤的示例,NoRa数据集旨在测试模型在面对噪声时的鲁棒性。例如,在数学问题求解中,模型可能会遇到带有错误推理步骤的提示,NoRa数据集通过对比模型在干净和噪声环境下的表现,揭示了当前LLMs在处理噪声推理路径时的脆弱性。
解决学术问题
NoRa数据集解决了大型语言模型在链式思维提示中对噪声推理路径的鲁棒性问题。通过构建包含噪声推理步骤的数据集,NoRa揭示了现有模型在面对噪声时的性能下降,特别是在GPT-3.5等模型中,准确率显著降低。这为研究者提供了一个重要的基准,促使他们开发新的方法来增强模型在噪声环境下的推理能力,从而推动了自然语言处理领域的发展。
衍生相关工作
NoRa数据集的提出激发了一系列相关研究工作,特别是在噪声环境下增强语言模型推理能力的方向。例如,研究者们提出了对比去噪方法(CD-CoT),通过对比噪声和干净的推理路径来提升模型的去噪能力。此外,NoRa还促进了自校正和自一致性等方法的改进,这些方法在处理噪声推理路径时表现出了更高的有效性。这些衍生工作不仅丰富了自然语言处理的研究内容,也为实际应用提供了更强大的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作