Lots-of-LoRAs/task1186_nne_hrngo_classification

Name: Lots-of-LoRAs/task1186_nne_hrngo_classification
Creator: Lots-of-LoRAs
Published: 2024-07-16 13:58:57
License: 暂无描述

Hugging Face2024-07-16 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/Lots-of-LoRAs/task1186_nne_hrngo_classification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Natural Instructions，是一个用于文本生成任务的数据集。数据集包含输入、输出和ID三个特征，数据分为训练集、验证集和测试集，分别包含2535、317和317个样本。数据集的主页和相关论文提供了更多详细信息。

The dataset is named Natural Instructions and is designed for text-generation tasks. It includes features such as input, output, and ID, and is divided into training, validation, and test sets with 2535, 317, and 317 examples respectively. More details can be found on the datasets homepage and related papers.

提供机构：

Lots-of-LoRAs

原始信息汇总

数据集概述

基本信息

数据集名称: task1186_nne_hrngo_classification
数据集别名: Natural Instructions
语言: 英语 (en)
许可证: Apache 2.0
任务类别: 文本生成

数据集详情

配置名称: plain_text
特征:
- input: 字符串类型
- output: 字符串类型
- id: 字符串类型
数据分割:
- train: 2535个样本
- valid: 317个样本
- test: 317个样本

引用信息

主要论文: bibtex @misc{wang2022supernaturalinstructionsgeneralizationdeclarativeinstructions, title={Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks}, author={Yizhong Wang and Swaroop Mishra and Pegah Alipoormolabashi and Yeganeh Kordi and Amirreza Mirzaei and Anjana Arunkumar and Arjun Ashok and Arut Selvan Dhanasekaran and Atharva Naik and David Stap and Eshaan Pathak and Giannis Karamanolakis and Haizhi Gary Lai and Ishan Purohit and Ishani Mondal and Jacob Anderson and Kirby Kuznia and Krima Doshi and Maitreya Patel and Kuntal Kumar Pal and Mehrad Moradshahi and Mihir Parmar and Mirali Purohit and Neeraj Varshney and Phani Rohitha Kaza and Pulkit Verma and Ravsehaj Singh Puri and Rushang Karia and Shailaja Keyur Sampat and Savan Doshi and Siddhartha Mishra and Sujan Reddy and Sumanta Patro and Tanay Dixit and Xudong Shen and Chitta Baral and Yejin Choi and Noah A. Smith and Hannaneh Hajishirzi and Daniel Khashabi}, year={2022}, eprint={2204.07705}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2204.07705}, }
补充论文: bibtex @misc{brüelgabrielsson2024compressserveservingthousands, title={Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead}, author={Rickard Brüel-Gabrielsson and Jiacheng Zhu and Onkar Bhardwaj and Leshem Choshen and Kristjan Greenewald and Mikhail Yurochkin and Justin Solomon}, year={2024}, eprint={2407.00066}, archivePrefix={arXiv}, primaryClass={cs.DC}, url={https://arxiv.org/abs/2407.00066}, }

搜集汇总

数据集介绍

构建方式

该数据集源自大规模自然指令（Natural Instructions）项目，旨在推动自然语言处理模型对多样化任务指令的理解与泛化能力。其构建过程依托于众包平台，由标注人员根据预设的指令模板完成数据采集与标注工作。具体而言，task1186_nne_hrngo_classification聚焦于文本生成任务中的分类场景，每条样本包含输入文本、输出标签及唯一标识符。数据集被划分为训练集（2535条）、验证集（317条）和测试集（317条），以确保模型评估的稳健性与可重复性。

特点

该数据集的核心特点在于其高度的任务多样性与指令驱动的设计理念。作为Super-NaturalInstructions系列的一部分，它强调通过自然语言指令而非固定标签来引导模型执行分类任务，从而提升模型在零样本或少样本场景下的泛化表现。数据样本均经过众包审核，保证了标注质量与一致性。此外，数据集规模适中，便于快速迭代实验，同时覆盖了丰富的语言现象与分类边界，为研究指令微调与模型对齐提供了宝贵资源。

使用方法

该数据集适用于文本生成模型的指令微调与评估。使用者可直接加载HuggingFace上的数据集，利用其预定义的‘plain_text’配置获取输入与输出字段。在训练阶段，模型需根据input中的文本内容，结合任务指令生成对应的output标签。推荐采用标准序列到序列框架，将指令与输入拼接后输入模型。验证集与测试集可用于监控过拟合与评估泛化能力。此外，研究者可参考配套论文中的基线方法，或将其集成至LoRA等参数高效微调流程中，以探索计算资源受限下的优化策略。

背景与挑战

背景概述

Lots-of-LoRAs/task1186_nne_hrngo_classification 数据集源自艾伦人工智能研究所（Allen Institute for AI）于2022年发布的Super-NaturalInstructions项目，由Yizhong Wang、Swaroop Mishra等数十位研究者共同构建。该数据集聚焦于非自然实体（NNE）与人类权利非政府组织（HRNGO）之间的文本分类任务，旨在通过自然语言指令驱动模型理解复杂的语义关系。作为涵盖1600余项NLP任务的庞大指令集的一部分，该数据集推动了模型从单一任务泛化到多任务学习的范式转变，其影响力体现在后续大规模语言模型（如GPT系列）对指令遵循能力的显著提升上。研究核心在于探索声明式指令如何使模型在零样本或少样本场景下高效完成分类，为自然语言处理中的可迁移学习提供了关键基准。

当前挑战

该数据集面临的挑战首先体现在领域问题的复杂性上：非自然实体与人类权利组织的分类边界模糊，涉及抽象概念（如法律实体与倡导群体的区分）和上下文依赖的语义歧义，这对模型的细粒度理解能力提出严苛要求。其次，构建过程中需应对众包标注带来的噪声问题——2535条训练样本虽经质量控制，但不同标注者对实体归属的认知差异仍可能引入标签不一致性。此外，任务指令的表述需兼顾通用性与精确性，避免因措辞歧义导致模型误判，同时需在仅317条验证和测试样本上保证评估的统计可靠性，这对小样本场景下的泛化能力构成显著约束。

常用场景

经典使用场景

该数据集源自Natural Instructions项目，专为文本生成任务设计，聚焦于对非政府组织（NGO）相关文本进行分类。其经典使用场景在于评估和微调大规模语言模型（LLMs）在遵循自然语言指令方面的能力，尤其是在需要模型理解并执行细粒度分类任务的情境中。通过向模型提供描述性指令和待分类的文本输入，研究者能够检验模型能否准确映射到预设的类别标签，从而推动指令微调（instruction tuning）这一范式的发展。

衍生相关工作

该数据集衍生了一系列具有深远影响的经典工作，其中最核心的是Super-NaturalInstructions项目，后者整合了1600余项NLP任务，系统性地验证了指令微调在提升模型泛化能力上的有效性。此外，基于该数据集的压缩与高效服务研究（如‘Compress then Serve’工作）探索了在资源受限环境下部署数千个LoRA适配器的方法，为大规模多任务模型的实用化铺平了道路。这些工作共同推动了指令驱动型AI从学术探索向工业部署的跨越。

数据集最近研究