tatsu-lab/alpaca|自然语言处理数据集|指令学习数据集
收藏数据集概述:Alpaca
数据集描述
- 数据集名称: Alpaca
- 数据集概要: Alpaca是一个包含52,000条指令和演示的数据集,由OpenAI的
text-davinci-003
引擎生成。该数据集主要用于语言模型的指令微调,以提高模型遵循指令的能力。 - 语言: 英语(BCP-47 en)
- 许可: 创意共享非商业性许可(CC BY-NC 4.0)
数据集结构
数据实例
- 示例: json { "instruction": "Create a classification task by clustering the given list of items.", "input": "Apples, oranges, bananas, strawberries, pineapples", "output": "Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", "text": "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.
Instruction:
Create a classification task by clustering the given list of items.
Input:
Apples, oranges, bananas, strawberries, pineapples
Response:
Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", }
数据字段
- instruction: 描述模型应执行的任务,每个指令都是唯一的。
- input: 任务的上下文或输入,约40%的示例包含此字段。
- output:
text-davinci-003
生成的指令答案。 - text: 使用作者提供的模板格式化的
instruction
、input
和output
。
数据分割
- 训练集: 52002条记录
数据集创建
数据生成
- 生成引擎: 使用
text-davinci-003
引擎生成指令数据。 - 生成策略: 采用更积极的批量解码,一次生成20条指令,显著降低数据生成成本。
- 数据简化: 简化数据生成流程,不再区分分类和非分类指令,每个指令仅生成一个实例。
使用考虑
社会影响
- 风险与利益: 发布此数据集可能带来风险,如增加有害内容传播的可能性,但同时也为学术界提供了进行指令遵循语言模型研究的工具。
- 风险缓解措施: 实施内容过滤和输出水印技术,以及严格的非商业使用条款。
数据局限性
- 数据质量: 由于数据由语言模型生成,可能包含错误或偏见,建议用户谨慎使用并探索改进方法。

PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
Global Water Quality Dataset
该数据集包含了全球多个地区的水质监测数据,涵盖了多种水质参数,如pH值、溶解氧、电导率、温度等。数据集旨在帮助研究人员和政策制定者了解全球水质的现状和变化趋势。
www.kaggle.com 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录