five

ODIN数据集

收藏
arXiv2023-03-16 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2303.06832v2
下载链接
链接失效反馈
官方服务:
资源简介:
ODIN数据集是由乐天人工智能研究所开发的一种创新型数据集,旨在通过用户需求动态生成数据,以缓解传统机器学习中对训练数据的依赖。该数据集包含三个主要模块:提示生成器、文本到图像生成器和图像后处理器。通过使用大型语言模型(如ChatGPT)和文本到图像扩散模型(如Stable Diffusion),ODIN能够生成高质量的提示和图像。数据集的创建过程涉及根据用户提供的标签生成提示,然后使用文本到图像生成器基于这些提示生成图像,最后通过图像后处理器对生成的图像进行优化。ODIN数据集的应用领域广泛,特别是在需要处理未见类别或在不同领域中进行模型训练的场景中,ODIN能够帮助模型学习到超出原始训练数据集的知识。

The ODIN dataset is an innovative dataset developed by the Rakuten Institute of Artificial Intelligence, designed to dynamically generate data based on user requirements and alleviate the dependence on training data in traditional machine learning. This dataset comprises three core modules: a prompt generator, a text-to-image generator, and an image post-processor. By leveraging large language models (e.g., ChatGPT) and text-to-image diffusion models (e.g., Stable Diffusion), ODIN can generate high-quality prompts and images. The dataset creation process involves generating prompts based on user-provided tags, then utilizing the text-to-image generator to produce images from these prompts, and finally optimizing the generated images via the image post-processor. The ODIN dataset has broad application scenarios, particularly in scenarios where models need to handle unseen categories or conduct model training across different domains, as it can help models learn knowledge beyond the scope of the original training dataset.
提供机构:
乐天人工智能研究所
创建时间:
2023-03-13
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作