five

Unnatural SynContextQA, Unnatural SimGSM8K, Unnatural LIMA

收藏
github2025-03-05 更新2025-03-07 收录
下载链接:
https://github.com/John-AI-Lab/Unnatural_Language
下载链接
链接失效反馈
官方服务:
资源简介:
合成数据集用于不自然语言问答,GSM8K的不自然子集用于不自然语言问答,LIMA的不自然版本用于指令微调

Synthetic datasets are used for unnatural language question answering. The unnatural subset of GSM8K is employed for unnatural language question answering, and the unnatural version of LIMA is utilized for instruction tuning.
创建时间:
2025-02-28
原始信息汇总

Unnatural Language Dataset Overview

数据集简介

  • 数据集名称:Unnatural Language
  • 数据集用途:用于大型语言模型(LLM)的指令微调、 unnatural language 问答等任务
  • 许可协议:MIT License

数据集列表

数据集名称 描述 下载链接
Unnatural SynContextQA 合成的unnatural language问答数据集 Link
Unnatural SimGSM8K GSM8K数据集的子集,用于unnatural language问答 Link
Unnatural LIMA LIMA数据集的unnatural版本,用于指令微调 Link

模型列表

模型名称 训练数据集 下载链接
Gemma-2-9B Unnatural LIMA Link
Gemma-2-9B Natural LIMA Link
Llama-3-8B Unnatural LIMA Link
Llama-3-8B Natural LIMA Link
Llama-3-70B Unnatural LIMA Link
Llama-3-70B Natural LIMA Link

使用说明

  • 安装命令:pip install -e .
  • 搜索算法代码来源:修改自 https://github.com/llm-attacks/llm-attacks
  • 搜索unnatural language版本的代码示例:bash run_unnatural_lima.sh 0 1

性能结果

  • 问答示例与评估结果:包含unnatural language问答的示例和评估结果图表
  • 指令微调评估结果:在Alpaca Eval 2.0 LC和MixEval上的评估结果图表

引用信息

bibtex @misc{duan2025unnaturallanguagesbugsfeatures, title={Unnatural Languages Are Not Bugs but Features for LLMs}, author={Keyu Duan and Yiran Zhao and Zhili Feng and Jinjie Ni and Tianyu Pang and Qian Liu and Tianle Cai and Longxu Dou and Kenji Kawaguchi and Anirudh Goyal and J. Zico Kolter and Michael Qizhe Shieh}, year={2025}, eprint={2503.01926}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.01926}, }

搜集汇总
数据集介绍
main_image_url
构建方式
Unnatural SynContextQA、Unnatural SimGSM8K及Unnatural LIMA数据集的构建,旨在探索与自然语言处理模型交互中的非自然语言现象。数据集通过选取特定文本,经过合成或修改,形成针对非自然语言处理的问答或指令调优任务。具体而言,Unnatural SynContextQA是合成的问答数据集,Unnatural SimGSM8K是GSM8K数据集的子集,而Unnatural LIMA则是对LIMA数据集的非自然版本进行指令调优。
特点
这些数据集的特点在于它们专门设计用于评估和提升大型语言模型在处理非自然语言方面的能力。它们包含了经过特别构造的文本,这些文本在形式上偏离了日常语言习惯,但仍然需要模型正确理解和回应。这种设计可以帮助模型学习到从非标准或异常表达中提取信息的能力,增强其鲁棒性和泛化能力。
使用方法
数据集的使用方法包括:首先,通过HuggingFace Datasets库进行安装和下载;其次,利用提供的脚本和算法进行非自然语言的搜索和识别;最后,可以通过标准的数据处理流程将这些数据集应用于模型的训练和评估。用户可以根据具体任务需求,选择相应的数据集和模型进行指令调优或问答系统的训练。
背景与挑战
背景概述
Unnatural SynContextQA、Unnatural SimGSM8K及Unnatural LIMA三个数据集,是在大型语言模型研究中,针对模型对不自然语言处理特性的探究而创建的。该数据集由杜安等研究人员于2025年提出,旨在通过构建不自然语言环境,探索并优化大型语言模型在处理不自然语言时的性能。这些数据集的创建对于理解语言模型在处理非标准语言表达时的能力,以及如何改善模型对不自然语言的识别和处理,具有显著的研究价值和影响力。
当前挑战
该数据集在构建过程中面临的主要挑战包括:1) 如何构建能够有效触发大型语言模型不自然语言处理特性的数据集;2) 在不自然语言环境下,如何评估和优化模型的性能;3) 数据集构建过程中的标注和质量控制问题。在解决领域问题方面,这些数据集的挑战主要在于如何通过不自然语言问答和指令调优,提升大型语言模型在实际应用中的泛化能力和准确性。
常用场景
经典使用场景
Unnatural SynContextQA、Unnatural SimGSM8K和Unnatural LIMA三个数据集,均为研究者在探索机器学习模型处理非自然语言表达时的性能表现而构建。在经典使用场景中,这些数据集通常被用于评估和改进大型语言模型在处理经过特定构造的、违反自然语言规则的问题时的问答能力。
衍生相关工作
基于这些数据集,研究者已经开展了一系列相关工作,如对现有模型的改进、新模型的提出以及模型性能评估方法的探索。这些衍生工作不仅丰富了非自然语言处理领域的理论研究,也为实际应用提供了更多的技术选择和解决方案。
数据集最近研究
最新研究方向
在自然语言处理领域,近期研究关注于 unnatural language 对大型语言模型的影响。Unnatural SynContextQA、Unnatural SimGSM8K 和 Unnatural LIMA 数据集的创建,提供了专门针对 unnatural language 的问答和指令微调研究资源。这些数据集的推出,不仅挑战了传统语言模型处理中的‘bug’观念,更将其视为可利用的‘特性’,以提升模型在特定任务上的表现。当前研究正致力于探索如何通过这些数据集优化模型,以提高其在复杂语义任务中的准确性和泛化能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作