five

Gregor/mblip-train

收藏
Hugging Face2023-09-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Gregor/mblip-train
下载链接
链接失效反馈
官方服务:
资源简介:
mBLIP Instruct Mix数据集是用于训练mBLIP模型的指令混合数据集,包含95种语言的机器翻译数据,翻译比例与mC4数据集中的语言比例一致。数据集结构包括一个主JSON文件和多个文件夹,分别包含生成混合数据的任务和用于模型评估的任务文件。数据集不包含图像,但提供了图像下载的链接和文件名。许可证要求遵守原始数据集的许可证以及NLLB翻译模型的许可证。数据集的主要用途是研究大型多语言多模态模型和聊天机器人,主要用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

mBLIP Instruct Mix数据集是用于训练mBLIP模型的指令混合数据集,包含95种语言的机器翻译数据,翻译比例与mC4数据集中的语言比例一致。数据集结构包括一个主JSON文件和多个文件夹,分别包含生成混合数据的任务和用于模型评估的任务文件。数据集不包含图像,但提供了图像下载的链接和文件名。许可证要求遵守原始数据集的许可证以及NLLB翻译模型的许可证。数据集的主要用途是研究大型多语言多模态模型和聊天机器人,主要用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
提供机构:
Gregor
原始信息汇总

mBLIP Instruct Mix Dataset Summary

Dataset Details

Dataset Type

  • Purpose: Instruction mix used to train mBLIP.
  • Source: https://github.com/gregor-ge/mBLIP

Dataset Date

  • Creation Date: May 2023

Dataset Languages

  • Original Languages: English
  • Translated Languages: 95 languages, including af, am, ar, az, be, bg, bn, ca, ceb, cs, cy, da, de, el, en, eo, es, et, eu, fa, fi, fil, fr, ga, gd, gl, gu, ha, hi, ht, hu, hy, id, ig, is, it, iw, ja, jv, ka, kk, km, kn, ko, ku, ky, lb, lo, lt, lv, mg, mi, mk, ml, mn, mr, ms, mt, my, ne, nl, no, ny, pa, pl, ps, pt, ro, ru, sd, si, sk, sl, sm, sn, so, sq, sr, st, su, sv, sw, ta, te, tg, th, tr, uk, ur, uz, vi, xh, yi, yo, zh, zu
  • Translation Method: Machine translation using NLLB

Dataset Structure

  • Files:
    • task_mix_mt.json: Processed, translated, and combined instruction mix data.
    • Folders: Contain separate tasks used to generate the mix and files for model evaluation.

Images

  • Inclusion: No images included.
  • External Sources: Images for training and evaluation can be downloaded from public datasets like MSCOCO.

License

  • Compliance: Must comply with the licenses of original datasets and NLLB.
  • Details: https://github.com/gregor-ge/mBLIP/data/README.md

Intended Use

  • Primary Use: Research on large multilingual multimodal models and chatbots.
  • Primary Users: Researchers and hobbyists in computer vision, natural language processing, machine learning, and artificial intelligence.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作