five

Parrot-dataset

收藏
魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/AIDC-AI/Parrot-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
# Description The Parrot dataset is a multilingual, multimodal dataset comprising two parts: the multimodal training datasets sharegpt-4v-ar, sharegpt-4v-pt, sharegpt-4v-ru, sharegpt-4v-tr, and sharegpt-4v-zh, as well as the multimodal evaluation benchmarks MMBench and MMMB. For detailed information about the dataset, please refer to: [Parrot](https://arxiv.org/abs/2406.02539). For the images in the ShareGPT and MMBench datasets, you can refer to the original datasets to obtain them. Due to translation and review processes, the number of data points in other translated languages in mmbench will be fewer than in the original English dataset (each language will have more than 95%). The images in the MMMB dataset have been encoded in base64, so they need to be decoded from base64 for use. # License The dataset is released under CC BY-NC-SA 4.0. The data is released for non-commercial research purposes only. # Declaration Data Sources: - We use data from ShareGPT4v (https://huggingface.co/datasets/Lin-Chen/ShareGPT4V) under Attribution-NonCommercial 4.0 International (https://creativecommons.org/licenses/by-nc/4.0/legalcode.en), and it should abide by the policy of OpenAI (https://openai.com/policies/terms-of-use). - We use data from MME (https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation). Copyright belongs to the original dataset owners. - We use data from MMBench (https://github.com/open-compass/MMBench) under Apache License Version 2.0 (https://github.com/open-compass/MMBench/blob/main/LICENSE). Copyright belongs to the original dataset owners. - We use data from ScienceQA (https://github.com/lupantech/ScienceQA?tab=readme-ov-file) under CC BY-NC-SA 4.0 (https://github.com/lupantech/ScienceQA/blob/main/LICENSE-DATA). - We use data from SEED-Bench (https://github.com/AILab-CVC/SEED-Bench?tab=readme-ov-file) under Apache License Version 2.0 (https://github.com/AILab-CVC/SEED-Bench?tab=License-1-ov-file). Copyright belongs to the original dataset owners. Please contact us if you believe any data infringes upon your rights, and we will remove it.

# 数据集概述 Parrot数据集是一个多语言多模态数据集,包含两部分:多模态训练数据集sharegpt-4v-ar、sharegpt-4v-pt、sharegpt-4v-ru、sharegpt-4v-tr以及sharegpt-4v-zh,此外还包含多模态评测基准MMBench与MMMB。 如需了解该数据集的详细信息,请参阅:[Parrot](https://arxiv.org/abs/2406.02539)。 ShareGPT与MMBench数据集中的图像,可通过查阅原始数据集获取。由于经过翻译与审核流程,MMBench中其他翻译语言版本的数据条目数量少于原始英文版本(每种语言的保留率均超过95%)。MMMB数据集中的图像已采用base64编码,使用前需进行base64解码。 # 授权协议 本数据集采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议(CC BY-NC-SA 4.0)进行发布,仅可用于非商业性研究用途。 # 声明 数据来源: - 我们使用了ShareGPT4v(https://huggingface.co/datasets/Lin-Chen/ShareGPT4V)的数据,该数据采用署名-非商业性使用4.0国际许可协议(Attribution-NonCommercial 4.0 International)发布,同时需遵守OpenAI(https://openai.com/policies/terms-of-use)的相关条款。 - 我们使用了MME(https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation)的数据,版权归原始数据集所有者所有。 - 我们使用了MMBench(https://github.com/open-compass/MMBench)的数据,该数据采用Apache许可证2.0版(Apache License Version 2.0)发布,版权归原始数据集所有者所有。 - 我们使用了ScienceQA(https://github.com/lupantech/ScienceQA?tab=readme-ov-file)的数据,该数据采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议(CC BY-NC-SA 4.0)发布,详见https://github.com/lupantech/ScienceQA/blob/main/LICENSE-DATA。 - 我们使用了SEED-Bench(https://github.com/AILab-CVC/SEED-Bench?tab=readme-ov-file)的数据,该数据采用Apache许可证2.0版(Apache License Version 2.0)发布,版权归原始数据集所有者所有。 若您认为本数据集包含侵犯您权益的内容,请与我们联系,我们将及时移除相关数据。
提供机构:
maas
创建时间:
2025-10-27
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作