dfps-1234/echarts-synchart
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/dfps-1234/echarts-synchart
下载链接
链接失效反馈官方服务:
资源简介:
# ECharts-SynChart: A Synthetic Dataset for Chart Classification
[](https://doi.org/10.5281/zenodo.19401089)
This repository contains the code and dataset for the paper *"ECharts-SynChart: A Large-Scale Synthetic Dataset for Chart Type Classification"*.
## Dataset
- **Size**: 10,272 images, 24 chart types.
- **Source**: Generated from [ECharts](https://echarts.apache.org/) official examples with data augmentation (numerical perturbation, color variation, label replacement).
- **Download**: [https://doi.org/10.5281/zenodo.19401089](https://doi.org/10.5281/zenodo.19401089)
The dataset is accompanied by train/val/test CSV split files (included in this repository).
The dataset is provided as a single compressed archive (`echarts-synchart-images.tar.gz`, ~486 MB). After downloading, extract the images; the archive contains an images/folder. Place this images/folder in the repository root (alongside README.md).
## Code Structure
- `scripts/` – Python scripts for data augmentation, training, and evaluation.
- `train_classifier.py` – Train ResNet50 baseline model.
- `plot_confusion_matrix.py` – Generate confusion matrix on test set.
- `csv_to_jsonl.py` – Convert CSV labels to JSONL format (for Qwen-VL).
- `unified_augment.py` – Data augmentation for ECharts JS files.
- `generate_labels.py` – Extract chart type labels from JS files.
- `merge_datasets.py` – Merge multiple PNG directories into one dataset.
- `check_png.py` – Detect and optionally delete blank images.
- `config.py` & `utils.py` – Configuration and helper functions.
- `node_scripts/` – Node.js scripts for rendering ECharts JS to PNG.
- `render_echarts.js` – Render a JS file to PNG using Puppeteer.
- `requirements.txt` – Python dependencies.
## Quick Start
1. **Clone this repository**
```bash
git clone https://github.com/dfps-1234/echarts-synchart.git
cd echarts-synchart
```
2. **Install dependencies**
```bash
pip install -r requirements.txt
```
3. **Download the dataset**
Download the archive from Zenodo and extract it:
```bash
tar -xzf echarts-synchart-images.tar.gz # 解压后得到 images/ 文件夹
```
Place the images/folder in the root directory of this repository (alongside README.md). The default DATA_ROOT in train_classifier.py is set to'.', which expects the images/folder in the repository root.
The CSV files (train.csv, val.csv, test.csv) are already included in the repository – you do not need to regenerate them.
4. **Train the baseline model**
```bash
# Ensure DATA_ROOT in train_classifier.py points to the directory containing images/ (e.g., DATA_ROOT = '.')
python scripts/train_classifier.py --batch_size 64 --epochs 20
```
5. **Generate confusion matrix**
```bash
# The confusion matrix script uses the same DATA_ROOT setting as train_classifier.py.
python scripts/plot_confusion_matrix.py
```
## Requirements
Python 3.8 or higher is required.
See requirements.txt for a full list. Main packages:
- torch >= 2.0.0
- torchvision >= 0.15.0
- scikit-learn >= 1.2.0
- matplotlib >= 3.5.0
- pandas >= 1.5.0
- tqdm >= 4.65.0
- Pillow >= 9.0.0
- numpy >= 1.23.0
## Citation
If you use this code or dataset in your research, please cite:
```bibtex
@article{li2024echarts,
title={ECharts-SynChart: A Large-Scale Synthetic Dataset for Chart Type Classification},
author={Li, Yunzhe},
journal={...},
year={2024},
doi={10.5281/zenodo.19401089}
}
```
## License
This project is licensed under the MIT License – see the LICENSE file for details.
提供机构:
dfps-1234
搜集汇总
数据集介绍

构建方式
在数据可视化研究领域,构建高质量的图表分类数据集对于推进自动图表理解技术至关重要。ECharts-SynChart数据集通过系统化流程生成,其源数据取自Apache ECharts官方示例库,确保了图表样式的规范性与多样性。生成过程中,采用数值扰动、色彩变换及标签替换等数据增强技术,对原始图表进行多样化处理,有效扩充了数据规模并提升了模型的泛化能力。最终,数据集包含10,272张图像,涵盖24种常见图表类型,并以标准化的训练、验证和测试划分提供,为图表分类任务奠定了坚实基础。
使用方法
为便于研究者高效利用该数据集,其使用流程设计得清晰而便捷。用户首先需从指定数据仓储下载压缩档案并解压,将图像文件夹置于项目根目录。数据集已预置划分好的CSV文件,分别对应训练集、验证集和测试集,用户可直接加载这些文件进行模型训练与评估。项目代码库提供了完整的训练脚本,基于ResNet50等基准模型,支持用户快速开展分类实验。此外,配套工具还支持生成混淆矩阵等分析结果,助力研究者深入洞察模型性能。
背景与挑战
背景概述
在信息可视化领域,图表分类是解析和提取图形数据内容的关键技术,对文档理解与数据分析具有重要价值。ECharts-SynChart数据集于2024年由研究人员Yunzhe Li构建,旨在为图表类型分类任务提供大规模、高质量的合成数据资源。该数据集基于Apache ECharts官方示例生成,涵盖24种图表类型,共计10,272张图像,通过数值扰动、色彩变换与标签替换等数据增强技术提升多样性。其核心研究问题聚焦于解决真实世界图表数据稀缺且标注成本高昂的困境,为深度学习模型在图表识别领域的训练与评估提供了标准化基准,推动了自动化图表理解技术的发展。
当前挑战
图表分类任务面临多重挑战:其一,图表类型的细粒度区分,如折线图与面积图、条形图与柱状图之间的视觉相似性,要求模型具备捕捉细微差异的能力;其二,图表中文本、图例、坐标轴等元素的多样布局与风格变化,增加了特征提取的复杂性。在数据集构建过程中,挑战主要源于合成数据的真实性与泛化性平衡,需通过精心设计的数据增强策略模拟真实场景的变异,同时避免引入偏差;此外,大规模图像的高效渲染与质量校验,如检测并剔除空白图像,也是确保数据集可靠性的关键环节。
常用场景
经典使用场景
在信息可视化领域,图表分类是解析和利用视觉数据的基础任务。ECharts-SynChart数据集以其大规模合成特性,为图表类型分类模型提供了标准化的训练与评估平台。该数据集涵盖24种常见图表类型,通过数值扰动、色彩变换和标签替换等数据增强技术生成,确保了样本的多样性和真实性。研究人员可基于此数据集构建和优化深度学习模型,如ResNet50等卷积神经网络,以提升模型在复杂图表图像中的识别准确率与鲁棒性。
解决学术问题
图表自动分类长期面临真实数据稀缺、标注成本高昂的挑战。ECharts-SynChart通过合成方法生成了超过一万张高质量图表图像,有效缓解了数据不足问题,并提供了精确的类别标签。该数据集支持学术界探索小样本学习、域适应及模型泛化能力等核心议题,其标准化的数据划分与评估流程为比较不同算法性能提供了可靠基准,推动了计算机视觉与文档分析领域的交叉研究进展。
实际应用
在实际应用中,图表分类技术是智能文档处理、数据报告自动化及无障碍信息获取的关键环节。ECharts-SynChart数据集训练出的模型可集成于办公软件、学术论文解析工具或商业智能平台,自动识别报告中的图表类型并提取结构化信息。这不仅提升了数据处理效率,还助力于视觉障碍用户通过文本描述理解图表内容,体现了人工智能技术在社会包容性方面的积极价值。
数据集最近研究
最新研究方向
在信息可视化领域,图表分类作为数据理解的基础环节,其精度直接影响后续分析流程的可靠性。ECharts-SynChart数据集凭借其大规模合成特性,为基于深度学习的图表分类模型提供了丰富的训练资源。当前研究焦点集中于利用该数据集探索跨模态学习框架,例如结合视觉与文本描述以提升模型对复杂图表结构的辨识能力。同时,生成式人工智能的兴起推动了图表合成与真实场景数据之间的域适应研究,旨在缩小合成数据与真实应用之间的语义鸿沟。该数据集亦被用于评估模型在噪声干扰下的鲁棒性,反映了实际应用中图表样式多变带来的挑战。这些探索不仅深化了图表自动解析的技术边界,也为智能文档分析、无障碍信息获取等实际场景提供了关键支撑。
以上内容由遇见数据集搜集并总结生成



