Self-Instruct|自然语言处理数据集|指令生成数据集
收藏Self-Instruct数据集概述
数据集简介
- 目的:用于提升预训练语言模型遵循自然语言指令的能力
- 方法:通过模型自身生成创建大规模教学数据
- 特点:无需依赖大量人工标注
数据内容
- 规模:
- 52,000条指令
- 82,000个实例输入输出对
- 数据文件:
- 原始数据:
data/gpt3-generations/batch_221203/all_instances_82K.jsonl - 格式化数据:
data/finetuning/self_instruct_221203
- 原始数据:
- 评估数据:252个专家编写的任务及指令
数据生成流程
- 从种子任务生成指令
- 识别指令是否为分类任务
- 为每条指令生成实例
- 进行过滤、处理和重新格式化
使用说明
- 指令微调:可使用提供的数据对语言模型进行微调
- 数据生成:支持使用自定义种子任务或其他模型生成新数据
- 注意事项:
- 数据由GPT-3生成,可能存在错误或偏见
- 随机抽样显示46%的数据点可能存在问题
相关资源
- 论文:https://arxiv.org/abs/2212.10560
- 代码:包含完整生成流程的脚本
引用格式
bibtex @misc{selfinstruct, title={Self-Instruct: Aligning Language Model with Self Generated Instructions}, author={Wang, Yizhong and Kordi, Yeganeh and Mishra, Swaroop and Liu, Alisa and Smith, Noah A. and Khashabi, Daniel and Hajishirzi, Hannaneh}, journal={arXiv preprint arXiv:2212.10560}, year={2022} }

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Paper III (Walker et al. 2024)
Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.
DataCite Commons 收录
PartNet
我们介绍了PartNet: 一个一致的、大规模的三维对象数据集,用细粒度的、实例级的和分层的三维零件信息进行注释。我们的数据集包括573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集支持并充当许多任务的催化剂,例如形状分析,动态3D场景建模和仿真,可承受分析等。使用我们的数据集,我们建立了用于评估3D零件识别的三个基准任务: 细粒度语义分割,分层语义分割和实例分割。我们对四种最先进的3D深度学习算法进行了基准测试,用于细粒度语义分割,并对三种基线方法进行了基准测试。我们还提出了一种新颖的零件实例分割方法,并证明了其优于现有方法的性能。
OpenDataLab 收录
Other-Animals-10
该数据集包含103张图像,每张图像对应一个动物标签,标签类别包括熊、蜜蜂、甲虫等34种动物。数据集仅包含一个训练集,用于训练模型。
huggingface 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
