silk-road/MMC4-130k-image-english
收藏Hugging Face2023-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/silk-road/MMC4-130k-image-english
下载链接
链接失效反馈官方服务:
资源简介:
---
license: odc-by
task_categories:
- image-to-text
- text-to-image
language:
- en
size_categories:
- 100K<n<1M
---
MMC4-130k是对MMC4中,抽样了130k左右 simliarty较高的图文pair得到的数据集
我们准备陆续翻译这个子集
我们会陆续将更多数据集发布到hf,包括
- [ ] Coco Caption的中文翻译
- [ ] CoQA的中文翻译
- [ ] CNewSum的Embedding数据
- [ ] 增广的开放QA数据
- [x] WizardLM的中文翻译
如果你也在做这些数据集的筹备,欢迎来联系我们,避免重复花钱。
# 骆驼(Luotuo): 开源中文大语言模型
[https://github.com/LC1332/Luotuo-Chinese-LLM](https://github.com/LC1332/Luotuo-Chinese-LLM)
骆驼(Luotuo)项目是由[冷子昂](https://blairleng.github.io) @ 商汤科技, 陈启源 @ 华中师范大学 以及 李鲁鲁 @ 商汤科技 发起的中文大语言模型开源项目,包含了一系列语言模型。
( 注意: [陈启源](https://qiyuan-chen.github.io/) 正在寻找2024推免导师,欢迎联系 )
骆驼项目**不是**商汤科技的官方产品。
## Citation
Please cite the repo if you use the data or code in this repo.
```
@misc{alpaca,
author={Ziang Leng, Qiyuan Chen and Cheng Li},
title = {Luotuo: An Instruction-following Chinese Language model, LoRA tuning on LLaMA},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/LC1332/Luotuo-Chinese-LLM}},
}
```
提供机构:
silk-road
原始信息汇总
数据集概述
基本信息
- 名称: MMC4-130k
- 类型: 图文对数据集
- 规模: 约130k样本
- 语言: 英文
- 许可: odc-by
任务类别
- 图像到文本
- 文本到图像
数据集描述
MMC4-130k是从MMC4中抽样得到的,包含相似度较高的图文对。目前正在进行翻译工作,未来将陆续发布更多相关数据集。
未来计划
- 翻译Coco Caption的中文版本
- 翻译CoQA的中文版本
- 发布CNewSum的Embedding数据
- 发布增广的开放QA数据
- 已完成WizardLM的中文翻译
联系方式
对于正在筹备上述数据集的个人或团队,欢迎联系以避免重复工作。



