InstructionWild v1|自然语言处理数据集|指令生成数据集
收藏Instruction in the Wild: A User-based Instruction Dataset
数据集概述
- 数据集名称: Instruction in the Wild
- 版本: v1 和 v2
- 数据量:
- v1: 429 条指令
- v2: 超过 110K 条高质量用户指令
- 语言: 英语和中文
- 数据来源: 从 ChatGPT 使用分享中收集的指令
- 数据格式: 与 Alpaca 数据集相同,无输入字段
数据集特点
- 多样性: 数据集中的指令非常多样化,涵盖了生成、开放式问答和头脑风暴等类型。
- 数据收集方法:
- v1: 从 Twitter 上抓取了 700 多条噪声指令,筛选出 429 条高质量指令。
- v2: 未使用自指导生成指令,所有指令均为用户生成。
- 数据标注: v2 版本中对部分指令进行了指令类型和特殊标签的标注。
数据集应用
- 模型训练: Colossal AI 使用该数据集训练了 ColossalChat 模型。
- 模型表现:
- 优点: 在生成、开放式问答和头脑风暴等指令类型上表现较好。
- 局限性:
- 缺乏计数能力、逻辑推理能力、多轮对话和角色扮演能力。
- 在安全性方面存在不足,无法完全遵守 OpenAI 的政策。
数据集对比
- 详细对比: 参见 comparison.md
未来计划
- 待完成: 更大的数据集
作者
引用
bibtex @misc{instructionwild, author = {Jinjie Ni and Fuzhao Xue and Kabir Jain and Mahir Hitesh Shah and Zangwei Zheng and Yang You }, title = {Instruction in the Wild: A User-based Instruction Dataset}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/XueFuzhao/InstructionWild}}, }

中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
HIT-UAV
HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。
github 收录