five

PubTables-1M (PubMed Tables One Million)|表格识别数据集|生物医学文献分析数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
表格识别
生物医学文献分析
下载链接:
https://opendatalab.org.cn/OpenDataLab/PubTables-1M
下载链接
链接失效反馈
资源简介:
PubTables-1M 的目标是创建一个大型、详细、高质量的数据集,用于训练和评估用于表格检测、表格结构识别和功能分析任务的各种模型。它包含:460,589 个带注释的文档页面,其中包含用于表格检测的表格。 947,642 个完整注释的表格,包括文本内容和完整的位置(边界框)信息,用于表格结构识别和功能分析。所有表格行、列和单元格(包括空白单元格)以及其他注释结构(例如列标题和投影行标题)的图像和 PDF 坐标中的完整边界框。所有表格和页面的渲染图像。每个表格和页面图像中出现的所有单词的边界框和文本。当前模型训练中未使用的其他单元格属性。此外,标题中的单元格被规范化,我们实施了多个质量控制步骤,以确保注释尽可能没有噪音。有关详细信息,请参阅我们的论文。
提供机构:
OpenDataLab
创建时间:
2022-08-16
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Natural Scene Braille Character Recognition Dataset

There are a total of 1157 Braille segment images in this dataset, including 925 in the training set and 232 in the testing set. There are two folders in the directory of this dataset: character_label and segment_label. The character_rabel file contains three formats of Braille segment images: (1) Braille segment images and label files stored in ICDAR-2015 format, each. jpg file corresponds to a. txt file, where each line stores the position and recognition label of a braille character rectangle box. The data corresponds to the coordinates of the four points in the rectangle box and the recognized numerical label; (2) The original format of the data is stored in the folder org. Each .jpg file in this folder corresponds to a .json file which marked by labelme software; (3) VOC format, stored in voc-data folder. This folder stores images and corresponding .xml files in VOC format, and marks the position of each braille character rectangle box and its corresponding numerical label information in the .xml file. In addition, the original Braille images of natural scenes and the corresponding Braille segment markings .json files are stored in the folder segment_label.

DataCite Commons 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录