acul3/WikiCitra-ID
收藏Hugging Face2024-12-02 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/acul3/WikiCitra-ID
下载链接
链接失效反馈官方服务:
资源简介:
WikiCitra-ID是一个从印度尼西亚维基百科收集的大规模图像-文本数据集。该数据集包含从印度尼西亚维基百科文章的最新HTML转储中提取的图像及其对应的标题。数据集经过处理,形成了干净的图像-文本对,并提供了元数据以供验证。数据集包含352,150张图像,其中325,971张图像具有非空标题。每个数据条目包含图像、对应的印尼语标题或描述以及用于验证的元数据。数据集适用于多模态机器学习研究、印尼语视觉-语言模型、跨语言图像理解和基于维基百科的知识提取。
WikiCitra-ID is a large-scale image-text dataset collected from Indonesian Wikipedia, containing images and their corresponding captions extracted from the latest HTML dump of Indonesian Wikipedia articles. The dataset includes images, corresponding Indonesian captions or descriptions, and additional metadata for verification. It is suitable for multimodal machine learning research, Indonesian language vision-language models, cross-lingual image understanding, and Wikipedia-based knowledge extraction.
提供机构:
acul3



