five

silk-road/MMC4-130k-image-english

收藏
Hugging Face2023-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/silk-road/MMC4-130k-image-english
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: odc-by task_categories: - image-to-text - text-to-image language: - en size_categories: - 100K<n<1M --- MMC4-130k是对MMC4中,抽样了130k左右 simliarty较高的图文pair得到的数据集 我们准备陆续翻译这个子集 我们会陆续将更多数据集发布到hf,包括 - [ ] Coco Caption的中文翻译 - [ ] CoQA的中文翻译 - [ ] CNewSum的Embedding数据 - [ ] 增广的开放QA数据 - [x] WizardLM的中文翻译 如果你也在做这些数据集的筹备,欢迎来联系我们,避免重复花钱。 # 骆驼(Luotuo): 开源中文大语言模型 [https://github.com/LC1332/Luotuo-Chinese-LLM](https://github.com/LC1332/Luotuo-Chinese-LLM) 骆驼(Luotuo)项目是由[冷子昂](https://blairleng.github.io) @ 商汤科技, 陈启源 @ 华中师范大学 以及 李鲁鲁 @ 商汤科技 发起的中文大语言模型开源项目,包含了一系列语言模型。 ( 注意: [陈启源](https://qiyuan-chen.github.io/) 正在寻找2024推免导师,欢迎联系 ) 骆驼项目**不是**商汤科技的官方产品。 ## Citation Please cite the repo if you use the data or code in this repo. ``` @misc{alpaca, author={Ziang Leng, Qiyuan Chen and Cheng Li}, title = {Luotuo: An Instruction-following Chinese Language model, LoRA tuning on LLaMA}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/LC1332/Luotuo-Chinese-LLM}}, } ```
提供机构:
silk-road
原始信息汇总

数据集概述

基本信息

  • 名称: MMC4-130k
  • 类型: 图文对数据集
  • 规模: 约130k样本
  • 语言: 英文
  • 许可: odc-by

任务类别

  • 图像到文本
  • 文本到图像

数据集描述

MMC4-130k是从MMC4中抽样得到的,包含相似度较高的图文对。目前正在进行翻译工作,未来将陆续发布更多相关数据集。

未来计划

  • 翻译Coco Caption的中文版本
  • 翻译CoQA的中文版本
  • 发布CNewSum的Embedding数据
  • 发布增广的开放QA数据
  • 已完成WizardLM的中文翻译

联系方式

对于正在筹备上述数据集的个人或团队,欢迎联系以避免重复工作。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作