five

InstructWild|自然语言处理数据集|机器学习数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
自然语言处理
机器学习
下载链接:
https://opendatalab.org.cn/OpenDataLab/InstructWild
下载链接
链接失效反馈
资源简介:
指令调整是ChatGPT的关键组成部分。OpenAI使用他们的基于用户的指令数据集,但不幸的是,这个数据集不是开源的。Self-instruction发布了由175人工编写的指令组成的小指令数据集。斯坦福羊驼团队text-davinci-003从上述175个种子指令中按模型生成了52k指令。 该项目的目标是一个更大、更多样化的指令数据集。为此,我们从ChatGPT使用截图中收集了429个描述,并发布了中英文版本。我们发现这些指令非常多样化,即使规模仍然很小。我们跟随羊驼生成52k命令及其响应。所有数据都可以在目录数据中找到。 注意: 这是一个正在进行的项目。我们仍在收集和改进我们的数据。我们提前发布这个数据集,以加速我们的LLM研究。我们还将很快发表白皮书。
提供机构:
OpenDataLab
创建时间:
2023-04-26
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

google-10000-english

该数据集包含10,000个最常用的英语单词,按频率排序,来源于Google的万亿词料库的n-gram频率分析。数据集可用于多种应用,如打字训练程序,其中7,000个最常用的英语词汇已覆盖约90%的日常使用。

github 收录

EcoInvent

EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。

www.ecoinvent.org 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

禾萃

本数据集由安徽农业大学禾萃团队收集、整理、制作而成,涵盖了水稻生长不同阶段下对水肥的需求,以及对应的灌溉,施肥方法,为水稻生产提供全面、智能的水肥释放策略。团队致力于减轻农民生产负担,促进智慧农业建设,推动农业可持续发展。

github 收录