InstructWild|自然语言处理数据集|机器学习数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

自然语言处理

机器学习

下载链接：

https://opendatalab.org.cn/OpenDataLab/InstructWild

下载链接

链接失效反馈

资源简介：

指令调整是ChatGPT的关键组成部分。OpenAI使用他们的基于用户的指令数据集，但不幸的是，这个数据集不是开源的。Self-instruction发布了由175人工编写的指令组成的小指令数据集。斯坦福羊驼团队text-davinci-003从上述175个种子指令中按模型生成了52k指令。该项目的目标是一个更大、更多样化的指令数据集。为此，我们从ChatGPT使用截图中收集了429个描述，并发布了中英文版本。我们发现这些指令非常多样化，即使规模仍然很小。我们跟随羊驼生成52k命令及其响应。所有数据都可以在目录数据中找到。注意: 这是一个正在进行的项目。我们仍在收集和改进我们的数据。我们提前发布这个数据集，以加速我们的LLM研究。我们还将很快发表白皮书。

提供机构：

OpenDataLab

创建时间：

2023-04-26

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Granary

Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集，由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成，旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据，经过精心筛选和处理，旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别（ASR）和自动语音翻译（AST）等领域的研究，有助于提高语音模型在低资源语言上的准确性和鲁棒性。

arXiv 收录

Paper III (Walker et al. 2024)

Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.

DataCite Commons 收录

IR-500K

IR-500K是一个大型红外数据集，包含500,000张红外图像，涵盖了各种场景和物体在不同环境条件下的图像。

github 收录