AtlasUnified/atlas-pdf-img-cluster

Name: AtlasUnified/atlas-pdf-img-cluster
Creator: AtlasUnified
Published: 2023-09-26 20:42:50
License: 暂无描述

Hugging Face2023-09-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AtlasUnified/atlas-pdf-img-cluster

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从各种在线资源的PDF文件中提取的文本集合。数据集是通过一系列Python脚本生成的，这些脚本形成了一个强大的管道，自动化了数据的下载、转换和管理任务。数据集的主要用途是作为机器学习模型的训练数据，适用于文本分类、信息提取、命名实体识别和机器翻译等任务。

提供机构：

AtlasUnified

原始信息汇总

名称: Atlas PDF Image Cluster

任务类别:

标签:

大小类别: 10M<n<100M

许可证: osl-3.0

语言: 英语

该数据集包含从各种在线资源提取的PDF文件中的文本。数据集通过一系列Python脚本组成的强大管道自动化下载、转换和管理数据。

数据集包含以下内容：

主要用于训练处理文本数据的机器学习模型，包括文本分类、信息提取、命名实体识别和机器翻译任务。

数据集通过多阶段的Python管道生成，处理下载、转换和管理大型数据集。下载数据的主要来源是ROM1504的数据集。

数据集主要包含从PDF文件中提取的文本和边界框信息。

5,000+

优质数据集

54 个

任务类型

进入经典数据集