Unnatural SynContextQA, Unnatural SimGSM8K, Unnatural LIMA

github2025-03-05 更新2025-03-07 收录

下载链接：

https://github.com/John-AI-Lab/Unnatural_Language

下载链接

链接失效反馈

官方服务：

资源简介：

合成数据集用于不自然语言问答，GSM8K的不自然子集用于不自然语言问答，LIMA的不自然版本用于指令微调

Synthetic datasets are used for unnatural language question answering. The unnatural subset of GSM8K is employed for unnatural language question answering, and the unnatural version of LIMA is utilized for instruction tuning.

创建时间：

2025-02-28

原始信息汇总

Unnatural Language Dataset Overview

数据集简介

数据集名称：Unnatural Language
数据集用途：用于大型语言模型（LLM）的指令微调、 unnatural language 问答等任务
许可协议：MIT License

数据集列表

数据集名称	描述	下载链接
Unnatural SynContextQA	合成的unnatural language问答数据集	Link
Unnatural SimGSM8K	GSM8K数据集的子集，用于unnatural language问答	Link
Unnatural LIMA	LIMA数据集的unnatural版本，用于指令微调	Link

模型列表

模型名称	训练数据集	下载链接
Gemma-2-9B	Unnatural LIMA	Link
Gemma-2-9B	Natural LIMA	Link
Llama-3-8B	Unnatural LIMA	Link
Llama-3-8B	Natural LIMA	Link
Llama-3-70B	Unnatural LIMA	Link
Llama-3-70B	Natural LIMA	Link

使用说明

安装命令：pip install -e .
搜索算法代码来源：修改自 https://github.com/llm-attacks/llm-attacks
搜索unnatural language版本的代码示例：bash run_unnatural_lima.sh 0 1

性能结果

问答示例与评估结果：包含unnatural language问答的示例和评估结果图表
指令微调评估结果：在Alpaca Eval 2.0 LC和MixEval上的评估结果图表

引用信息

bibtex @misc{duan2025unnaturallanguagesbugsfeatures, title={Unnatural Languages Are Not Bugs but Features for LLMs}, author={Keyu Duan and Yiran Zhao and Zhili Feng and Jinjie Ni and Tianyu Pang and Qian Liu and Tianle Cai and Longxu Dou and Kenji Kawaguchi and Anirudh Goyal and J. Zico Kolter and Michael Qizhe Shieh}, year={2025}, eprint={2503.01926}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.01926}, }

搜集汇总

数据集介绍

构建方式

Unnatural SynContextQA、Unnatural SimGSM8K及Unnatural LIMA数据集的构建，旨在探索与自然语言处理模型交互中的非自然语言现象。数据集通过选取特定文本，经过合成或修改，形成针对非自然语言处理的问答或指令调优任务。具体而言，Unnatural SynContextQA是合成的问答数据集，Unnatural SimGSM8K是GSM8K数据集的子集，而Unnatural LIMA则是对LIMA数据集的非自然版本进行指令调优。

特点

这些数据集的特点在于它们专门设计用于评估和提升大型语言模型在处理非自然语言方面的能力。它们包含了经过特别构造的文本，这些文本在形式上偏离了日常语言习惯，但仍然需要模型正确理解和回应。这种设计可以帮助模型学习到从非标准或异常表达中提取信息的能力，增强其鲁棒性和泛化能力。

使用方法

数据集的使用方法包括：首先，通过HuggingFace Datasets库进行安装和下载；其次，利用提供的脚本和算法进行非自然语言的搜索和识别；最后，可以通过标准的数据处理流程将这些数据集应用于模型的训练和评估。用户可以根据具体任务需求，选择相应的数据集和模型进行指令调优或问答系统的训练。

背景与挑战

背景概述

Unnatural SynContextQA、Unnatural SimGSM8K及Unnatural LIMA三个数据集，是在大型语言模型研究中，针对模型对不自然语言处理特性的探究而创建的。该数据集由杜安等研究人员于2025年提出，旨在通过构建不自然语言环境，探索并优化大型语言模型在处理不自然语言时的性能。这些数据集的创建对于理解语言模型在处理非标准语言表达时的能力，以及如何改善模型对不自然语言的识别和处理，具有显著的研究价值和影响力。

当前挑战

该数据集在构建过程中面临的主要挑战包括：1) 如何构建能够有效触发大型语言模型不自然语言处理特性的数据集；2) 在不自然语言环境下，如何评估和优化模型的性能；3) 数据集构建过程中的标注和质量控制问题。在解决领域问题方面，这些数据集的挑战主要在于如何通过不自然语言问答和指令调优，提升大型语言模型在实际应用中的泛化能力和准确性。

常用场景

经典使用场景

Unnatural SynContextQA、Unnatural SimGSM8K和Unnatural LIMA三个数据集，均为研究者在探索机器学习模型处理非自然语言表达时的性能表现而构建。在经典使用场景中，这些数据集通常被用于评估和改进大型语言模型在处理经过特定构造的、违反自然语言规则的问题时的问答能力。

衍生相关工作

基于这些数据集，研究者已经开展了一系列相关工作，如对现有模型的改进、新模型的提出以及模型性能评估方法的探索。这些衍生工作不仅丰富了非自然语言处理领域的理论研究，也为实际应用提供了更多的技术选择和解决方案。

数据集最近研究