Self-Instruct|自然语言处理数据集|指令生成数据集
收藏Self-Instruct数据集概述
数据集简介
- 目的:用于提升预训练语言模型遵循自然语言指令的能力
- 方法:通过模型自身生成创建大规模教学数据
- 特点:无需依赖大量人工标注
数据内容
- 规模:
- 52,000条指令
- 82,000个实例输入输出对
- 数据文件:
- 原始数据:
data/gpt3-generations/batch_221203/all_instances_82K.jsonl
- 格式化数据:
data/finetuning/self_instruct_221203
- 原始数据:
- 评估数据:252个专家编写的任务及指令
数据生成流程
- 从种子任务生成指令
- 识别指令是否为分类任务
- 为每条指令生成实例
- 进行过滤、处理和重新格式化
使用说明
- 指令微调:可使用提供的数据对语言模型进行微调
- 数据生成:支持使用自定义种子任务或其他模型生成新数据
- 注意事项:
- 数据由GPT-3生成,可能存在错误或偏见
- 随机抽样显示46%的数据点可能存在问题
相关资源
- 论文:https://arxiv.org/abs/2212.10560
- 代码:包含完整生成流程的脚本
引用格式
bibtex @misc{selfinstruct, title={Self-Instruct: Aligning Language Model with Self Generated Instructions}, author={Wang, Yizhong and Kordi, Yeganeh and Mishra, Swaroop and Liu, Alisa and Smith, Noah A. and Khashabi, Daniel and Hajishirzi, Hannaneh}, journal={arXiv preprint arXiv:2212.10560}, year={2022} }

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
CBIS-DDSM
该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。
github 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
Stanford Cars
Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。
OpenDataLab 收录
DroneVehicle 大规模无人机航拍车辆检测数据集
这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。
超神经 收录