windata-vision-synthetics-zh-300k
收藏魔搭社区2026-01-06 更新2024-12-21 收录
下载链接:
https://modelscope.cn/datasets/wair/windata-vision-synthetics-zh-300k
下载链接
链接失效反馈官方服务:
资源简介:
**介绍**
我们整理生成了一个中文多模态图文指令数据集,包含了大约30万条数据以及约20万张图片,涉及文档doc、图表、数学、OCR等多种场景。
针对开源数据中中文图文指令集少且指令集描述普遍过于简短等问题,我们设计了一种基于开源模型的合成数据生成方法,利用 Qwen2-vl-72B-Instruct 生成较为详细的中文caption指令集,然后在同一场景中随机挑选1-4张图片和相应的中文caption,将caption数据给到我们的大语言模型 [WiNGPT-2.6](https://wingpt.winning.com.cn/) 通过设计系统指令使其每轮进行提问,将问题和图片给到 Qwen2-vl-72B-Instruct 使其进行回答;最后设定循环次数,得到多轮多图的对话数据。
对于生成后的数据,根据答案的长度、语句的重复性等进行了规则过滤;数学类题目,根据原始数据的答案进行了过滤。在制作最后的caption指令集时,我们针对每一个场景都设计了上百个问题,保证了caption数据集的多样性;在对话数据集上,我们在不同场景下来让WiNGPT-2.6 生成问题,得到了多样性的问题。最终我们通过合成数据的方式得到了一批多样性、答案较为详实且具有一定质量的中文多模态图文指令集。
**数据介绍**
| 数据集来源 | 任务说明 | 数量 | 来源 | License |
| ---------- | ------------------------------------- | ----- | ------------------------------------------------------- | -------------------------------------------------------- |
| Docmatix | doc文档的caption、ocr以及多轮对话数据 | 61817 | https://huggingface.co/datasets/HuggingFaceM4/Docmatix | MIT license |
| TallyQA | 通用文档的caption以及多轮对话数据 | 81950 | https://github.com/manoja328/TallyQA_dataset | Apache-2.0 license |
| PlotQA | 图表数据的caption以及多轮对话数据 | 38437 | https://huggingface.co/datasets/nimapourjafar/mm_plotqa | MIT license |
| Geo170KQA | 数学类数据 | 75000 | https://huggingface.co/datasets/Luckyjhg/Geo170K | Apache-2.0 license |
| EST-VQA | 包含ocr类的通用场景图片数据 | 26505 | https://github.com/xinke-wang/EST-VQA | [wang2020general](https://github.com/xinke-wang/EST-VQA) |
| ArXivQA | 论文截图数据 | 25540 | https://huggingface.co/datasets/taesiri/arxiv_qa | cc-by-4.0 |
**单条数据示例**
```json
{
"image_file": "arxivqa",
"image": [
"2006.11319_0.jpg"
],
"conversations": [
{
"from": "human",
"value": "<image>\n以下关于图中\\(z_4\\)和\\(z_6\\)之间关系的陈述中,哪一个是正确的?\nA. 随着\\(z_6\\)的增加,\\(z_4\\)单调增加。\nB. 随着\\(z_6\\)的增加,\\(z_4\\)单调减少。\nC. 当\\(\\zeta = 1\\)时,\\(z_4\\)在\\(z_6 = 1\\)处有最大值。\nD. \\(z_4\\)和\\(z_6\\)彼此成正比。"
},
{
"from": "gpt",
"value": "图中显示,随着\\(z_6\\)的增加,\\(z_4\\)呈现为一个带有极大值的曲线,而不是单调增加或减少。在\\(\\zeta = 1\\)的曲线上,\\(z_4\\)在\\(z_6 = 1\\)处达到最大值。因此,正确答案是C。因此,正确答案是C。"
}
]
}
```
**解释:**
- **"image_file"**: 表示图片所在的文件夹名称
- **"image"**: 列表中存放图片名称
- **"conversations"**: 对话内容,里面包含多轮和单轮的对话内容,其中 human 为人类问题,gpt 为模型回答
**参考文献**
1. Dai W, Lee N, Wang B, et al. Nvlm: Open frontier-class multimodal llms[J]. arXiv preprint arXiv:2409.11402, 2024.
**介绍**
本研究构建并整理了一套中文多模态图文指令数据集,总计包含约30万条对话数据与20万张配套图片,覆盖文档、图表、数学、光学字符识别(OCR)等多元应用场景。
针对当前开源领域中文图文指令集稀缺、多数指令描述过于简略的痛点,本研究提出了一种基于开源模型的合成数据生成方案:首先依托Qwen2-vl-72B-Instruct生成细节丰富的中文图像字幕(caption)指令集;随后从对应场景中随机选取1至4张图片及其配套中文caption,将caption输入自研大语言模型WiNGPT-2.6(https://wingpt.winning.com.cn/),并通过预设系统提示词引导其生成轮次化提问;再将生成的问题与图片一同输入Qwen2-vl-72B-Instruct完成回答;最终通过设定循环轮次,得到支持多轮对话且关联多张图片的对话数据集。
生成的原始数据集需经过规则过滤流程,过滤维度包括答案长度、语句重复率等;针对数学类题目,则基于原始参考答案完成二次筛选。在最终图像字幕指令集的构建环节,我们为每个场景预设了上百种提问模板,以保障数据集的多样性;在对话数据集阶段,通过在不同场景下由WiNGPT-2.6生成多样化提问,进一步丰富了数据的场景覆盖度。最终本方案通过合成数据路径,得到了一批具备高多样性、答案详实且质量可控的中文多模态图文指令数据集。
**数据介绍**
| 数据集来源 | 任务说明 | 数量 | 来源 | 许可证 |
| ---------- | ------------------------------------- | ----- | ------------------------------------------------------- | -------------------------------------------------------- |
| Docmatix | 文档(doc)的图像字幕、光学字符识别以及多轮对话数据 | 61817 | https://huggingface.co/datasets/HuggingFaceM4/Docmatix | MIT许可证 |
| TallyQA | 通用文档的图像字幕以及多轮对话数据 | 81950 | https://github.com/manoja328/TallyQA_dataset | Apache-2.0许可证 |
| PlotQA | 图表数据的图像字幕以及多轮对话数据 | 38437 | https://huggingface.co/datasets/nimapourjafar/mm_plotqa | MIT许可证 |
| Geo170KQA | 数学类数据 | 75000 | https://huggingface.co/datasets/Luckyjhg/Geo170K | Apache-2.0许可证 |
| EST-VQA | 包含光学字符识别类的通用场景图片数据 | 26505 | https://github.com/xinke-wang/EST-VQA | [wang2020general](https://github.com/xinke-wang/EST-VQA) |
| ArXivQA | 论文截图数据 | 25540 | https://huggingface.co/datasets/taesiri/arxiv_qa | CC-BY-4.0 |
**单条数据示例**
json
{
"image_file": "arxivqa",
"image": [
"2006.11319_0.jpg"
],
"conversations": [
{
"from": "human",
"value": "<image>
以下关于图中\(z_4\)和\(z_6\)之间关系的陈述中,哪一个是正确的?
A. 随着\(z_6\)的增加,\(z_4\)单调增加。
B. 随着\(z_6\)的增加,\(z_4\)单调减少。
C. 当\(zeta = 1\)时,\(z_4\)在\(z_6 = 1\)处有最大值。
D. \(z_4\)和\(z_6\)彼此成正比。"
},
{
"from": "gpt",
"value": "图中显示,随着\(z_6\)的增加,\(z_4\)呈现为一个带有极大值的曲线,而不是单调增加或减少。在\(zeta = 1\)的曲线上,\(z_4\)在\(z_6 = 1\)处达到最大值。因此,正确答案是C。因此,正确答案是C。"
}
]
}
**解释:**
- **"image_file"**:代表图片所属的文件夹名称
- **"image"**:为存储图片文件名的列表
- **"conversations"**:存储对话内容,支持单轮及多轮对话,其中`human`字段代表人类用户的提问,`gpt`字段代表模型生成的回复
**参考文献**
1. Dai W, Lee N, Wang B, 等. Nvlm:面向前沿级别的开源多模态大语言模型[J]. arXiv预印本 arXiv:2409.11402, 2024.
提供机构:
maas
创建时间:
2024-12-20
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个大规模中文多模态指令数据集,包含30万条文本和20万张图像,覆盖文档、图表、数学和OCR等多种场景,通过合成数据生成和严格过滤确保多样性和质量。
以上内容由遇见数据集搜集并总结生成



