Self-Instruct|自然语言处理数据集|指令生成数据集
收藏Self-Instruct数据集概述
数据集简介
- 目的:用于提升预训练语言模型遵循自然语言指令的能力
- 方法:通过模型自身生成创建大规模教学数据
- 特点:无需依赖大量人工标注
数据内容
- 规模:
- 52,000条指令
- 82,000个实例输入输出对
- 数据文件:
- 原始数据:
data/gpt3-generations/batch_221203/all_instances_82K.jsonl
- 格式化数据:
data/finetuning/self_instruct_221203
- 原始数据:
- 评估数据:252个专家编写的任务及指令
数据生成流程
- 从种子任务生成指令
- 识别指令是否为分类任务
- 为每条指令生成实例
- 进行过滤、处理和重新格式化
使用说明
- 指令微调:可使用提供的数据对语言模型进行微调
- 数据生成:支持使用自定义种子任务或其他模型生成新数据
- 注意事项:
- 数据由GPT-3生成,可能存在错误或偏见
- 随机抽样显示46%的数据点可能存在问题
相关资源
- 论文:https://arxiv.org/abs/2212.10560
- 代码:包含完整生成流程的脚本
引用格式
bibtex @misc{selfinstruct, title={Self-Instruct: Aligning Language Model with Self Generated Instructions}, author={Wang, Yizhong and Kordi, Yeganeh and Mishra, Swaroop and Liu, Alisa and Smith, Noah A. and Khashabi, Daniel and Hajishirzi, Hannaneh}, journal={arXiv preprint arXiv:2212.10560}, year={2022} }

OMIM (Online Mendelian Inheritance in Man)
OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。
www.omim.org 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
HIT-UAV
HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。
github 收录