five

InstructWild

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/InstructWild
下载链接
链接失效反馈
官方服务:
资源简介:
指令调整是ChatGPT的关键组成部分。OpenAI使用他们的基于用户的指令数据集,但不幸的是,这个数据集不是开源的。Self-instruction发布了由175人工编写的指令组成的小指令数据集。斯坦福羊驼团队text-davinci-003从上述175个种子指令中按模型生成了52k指令。 该项目的目标是一个更大、更多样化的指令数据集。为此,我们从ChatGPT使用截图中收集了429个描述,并发布了中英文版本。我们发现这些指令非常多样化,即使规模仍然很小。我们跟随羊驼生成52k命令及其响应。所有数据都可以在目录数据中找到。 注意: 这是一个正在进行的项目。我们仍在收集和改进我们的数据。我们提前发布这个数据集,以加速我们的LLM研究。我们还将很快发表白皮书。

Instruction tuning is a core component of ChatGPT. OpenAI uses their user-based instruction dataset, but unfortunately, this dataset is not open-source. Self-instruction has released a small instruction dataset composed of 175 manually written instructions. The Stanford Alpaca team utilized text-davinci-003 to generate 52k instructions from the aforementioned 175 seed instructions. The goal of this project is to build a larger and more diverse instruction dataset. To achieve this, we collected 429 descriptions from ChatGPT usage screenshots and released both Chinese and English versions. We found that these instructions are highly diverse, even though the overall scale remains small. We follow the approach of the Alpaca team to generate 52k instructions and their corresponding responses. All data can be found in the `data` directory. Note: This is an ongoing project. We are still collecting and refining our dataset. We are releasing this dataset in advance to accelerate our LLM research. A white paper will also be published soon.
提供机构:
OpenDataLab
创建时间:
2023-04-26
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
InstructWild 是一个由斯坦福大学于 2023 年发布的指令数据集,旨在为 ChatGPT 的指令调整提供开源替代方案。它通过收集 429 个 ChatGPT 使用截图描述,生成中英文版本,并扩展为 52k 条命令及其响应,具有多样性和小规模特点,适用于文本预训练微调任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作