HierText
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/HierText
下载链接
链接失效反馈官方服务:
资源简介:
HierText是第一个以自然场景和文档中的文本的分层注释为特征的数据集。此数据集包含从开放图像数据集中选择的11639图像,并提供高质量的word (〜1.2M),行和段落级别注释。文本行被定义为在空间上紧密对齐且逻辑上相连的单词的连接序列。属于同一语义主题的文本的几何连贯行形式的段落。HierText中的图像包含丰富的文本,平均每个图像超过100个单词。
提供机构:
OpenDataLab
创建时间:
2023-02-13



