alfredplpl/commoncatalog-cc-by-ja|图像描述数据集|多语言处理数据集
收藏hugging_face2024-06-23 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/alfredplpl/commoncatalog-cc-by-ja
下载链接
链接失效反馈资源简介:
CommonCatalog CC-BY Ja数据集是对CommonCatalog CC-BY的扩展,增加了由改进的LLaVA-JP模型生成的日语简略描述和详细描述。该数据集包含超过950,000张图像和对应的描述,适用于图像到文本和文本到图像的任务,语言为日语。
The CommonCatalog CC-BY Ja dataset is an extension of the CommonCatalog CC-BY, enhanced with Japanese captions generated by an improved LLaVA-JP model. It contains 950,000 images and their corresponding 950,000 brief Japanese captions, with plans to add three detailed Japanese captions. All images are under the CC BY license, allowing commercial use.
提供机构:
alfredplpl
原始信息汇总
CommonCatalog CC-BY Ja 数据集概述
数据集信息
- 许可证: CC BY 4.0
- 任务类别:
- 图像到文本
- 文本到图像
- 语言: 日语
- 数据规模: 100K < n < 1M
数据集内容
- 主键: photoid
- 图像数量: 300,000
- 描述数量: 300,000
- 平均字符数: 17.9
附加信息
- 简要日语描述: 由改良的LLaVA-JP模型生成
- 详细日语描述: 由改良的LLaVA-JP模型生成(计划中)
发布记录
- 2024/06/10: 发布简要版本



