five

alfredplpl/commoncatalog-cc-by-ja|图像描述数据集|多语言处理数据集

收藏
hugging_face2024-06-23 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/alfredplpl/commoncatalog-cc-by-ja
下载链接
链接失效反馈
资源简介:
CommonCatalog CC-BY Ja数据集是对CommonCatalog CC-BY的扩展,增加了由改进的LLaVA-JP模型生成的日语简略描述和详细描述。该数据集包含超过950,000张图像和对应的描述,适用于图像到文本和文本到图像的任务,语言为日语。

The CommonCatalog CC-BY Ja dataset is an extension of the CommonCatalog CC-BY, enhanced with Japanese captions generated by an improved LLaVA-JP model. It contains 950,000 images and their corresponding 950,000 brief Japanese captions, with plans to add three detailed Japanese captions. All images are under the CC BY license, allowing commercial use.
提供机构:
alfredplpl
原始信息汇总

CommonCatalog CC-BY Ja 数据集概述

数据集信息

  • 许可证: CC BY 4.0
  • 任务类别:
    • 图像到文本
    • 文本到图像
  • 语言: 日语
  • 数据规模: 100K < n < 1M

数据集内容

  • 主键: photoid
  • 图像数量: 300,000
  • 描述数量: 300,000
  • 平均字符数: 17.9

附加信息

  • 简要日语描述: 由改良的LLaVA-JP模型生成
  • 详细日语描述: 由改良的LLaVA-JP模型生成(计划中)

发布记录

  • 2024/06/10: 发布简要版本
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作