naver-clova-ix/synthdog-ja
收藏Hugging Face2024-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/naver-clova-ix/synthdog-ja
下载链接
链接失效反馈官方服务:
资源简介:
SynthDoG生成的数据集包括四个不同语言的版本:英文(synthdog-en)、中文(synthdog-zh)、日文(synthdog-ja)和韩文(synthdog-ko),每个数据集包含50万个样本。这些数据集用于OCR-Free文档理解任务,旨在通过合成数据提高模型在文档理解方面的性能。
提供机构:
naver-clova-ix
原始信息汇总
数据集概述
数据集名称
- SynthDoG datasets
数据集描述
- SynthDoG生成的数据集,用于OCR-Free文档理解。
数据集版本
- 英语 (
synthdog-en): 0.5M - 中文 (
synthdog-zh): 0.5M - 日语 (
synthdog-ja): 0.5M - 韩语 (
synthdog-ko): 0.5M
数据集链接
- 英语: synthdog-en
- 中文: synthdog-zh
- 日语: synthdog-ja
- 韩语: synthdog-ko
生成工具
- SynthDoG
引用信息
bibtex @inproceedings{kim2022donut, title = {OCR-Free Document Understanding Transformer}, author = {Kim, Geewook and Hong, Teakgyu and Yim, Moonbin and Nam, JeongYeon and Park, Jinyoung and Yim, Jinyeong and Hwang, Wonseok and Yun, Sangdoo and Han, Dongyoon and Park, Seunghyun}, booktitle = {European Conference on Computer Vision (ECCV)}, year = {2022} }



