AtlasUnified/atlas-pdf-img-cluster
收藏Hugging Face2023-09-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AtlasUnified/atlas-pdf-img-cluster
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从各种在线资源的PDF文件中提取的文本集合。数据集是通过一系列Python脚本生成的,这些脚本形成了一个强大的管道,自动化了数据的下载、转换和管理任务。数据集的主要用途是作为机器学习模型的训练数据,适用于文本分类、信息提取、命名实体识别和机器翻译等任务。
该数据集是从各种在线资源的PDF文件中提取的文本集合。数据集是通过一系列Python脚本生成的,这些脚本形成了一个强大的管道,自动化了数据的下载、转换和管理任务。数据集的主要用途是作为机器学习模型的训练数据,适用于文本分类、信息提取、命名实体识别和机器翻译等任务。
提供机构:
AtlasUnified
原始信息汇总
数据集概述
名称: Atlas PDF Image Cluster
任务类别:
- 图像分类
- 图像分割
- 图像到文本
标签:
- OCR
- 文本-图像对
大小类别: 10M<n<100M
许可证: osl-3.0
语言: 英语
数据集描述
该数据集包含从各种在线资源提取的PDF文件中的文本。数据集通过一系列Python脚本组成的强大管道自动化下载、转换和管理数据。
数据集内容
数据集包含以下内容:
- 样本JPG图像及其对应的JSON文件,包含边界框和文本数据。
数据集用途
主要用于训练处理文本数据的机器学习模型,包括文本分类、信息提取、命名实体识别和机器翻译任务。
数据集创建
数据集通过多阶段的Python管道生成,处理下载、转换和管理大型数据集。下载数据的主要来源是ROM1504的数据集。
数据字段
数据集主要包含从PDF文件中提取的文本和边界框信息。



