InstructionWild v2|自然语言处理数据集|指令理解数据集
收藏Instruction in the Wild: A User-based Instruction Dataset
数据集概述
- 数据集名称: Instruction in the Wild
- 版本: v1 和 v2
- 数据量: v2 包含超过 110K 条高质量用户生成的指令,v1 包含 429 条指令
- 语言: 英文和中文
- 数据格式: 与 Alpaca 数据集格式相同,指令没有输入字段
数据集特点
- 多样性: 数据集中的指令非常多样化,涵盖了生成、开放式问答和头脑风暴等类型
- 数据来源: 从 ChatGPT 使用分享中收集,未使用自生成指令
- 标注: v2 数据集中部分指令标注了指令类型和特殊标签
数据收集
- v1 数据收集: 从 Twitter 上抓取了 700 多条噪声指令,经过筛选后保留了 429 条高质量指令
- v2 数据收集: 收集了超过 110K 条指令,未使用自生成指令
数据集应用
- 模型训练: Colossal AI 使用该数据集训练了 ColossalChat 模型
- 模型改进: 数据集在生成、开放式问答和头脑风暴等指令类型上提升了模型的能力
数据集局限性
- LLaMA 微调模型的局限性:
- 缺乏计数能力
- 缺乏逻辑推理和计算能力
- 倾向于重复最后一句话
- 多语言表现不佳
- 数据集的局限性:
- 缺乏总结能力
- 缺乏多轮对话和角色扮演指令
- 缺乏自我认知指令
- 安全性问题:当输入包含虚假事实时,模型会编造虚假事实和解释
未来计划
- 待完成: 更大的数据集
作者
引用
bibtex @misc{instructionwild, author = {Jinjie Ni and Fuzhao Xue and Kabir Jain and Mahir Hitesh Shah and Zangwei Zheng and Yang You }, title = {Instruction in the Wild: A User-based Instruction Dataset}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/XueFuzhao/InstructionWild}}, }

Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
12306车次数据库
本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。
github 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录