SWHL/CDLA
收藏Hugging Face2024-05-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SWHL/CDLA
下载链接
链接失效反馈资源简介:
CDLA是一个中文文档版面分析数据集,面向中文文献类(论文)场景。包含以下10个标签:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释、公式。共包含5000张训练集和1000张验证集,分别在train和val目录下。标注工具为labelme,标注格式与labelme一致,包括shapes、labels、points等字段。
CDLA是一个中文文档版面分析数据集,面向中文文献类(论文)场景。包含以下10个标签:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释、公式。共包含5000张训练集和1000张验证集,分别在train和val目录下。标注工具为labelme,标注格式与labelme一致,包括shapes、labels、points等字段。
提供机构:
SWHL
原始信息汇总
CDLA数据集概述
数据集基本信息
- 名称: CDLA (Chinese Document Layout Analysis)
- 语言: 中文
- 规模: 1K<n<10K
- 许可: Apache-2.0
数据集内容
标签
CDLA数据集包含以下10个标签:
| 中文标签 | 英文标签 |
|---|---|
| 正文 | Text |
| 标题 | Title |
| 图片 | Figure |
| 图片标题 | Figure caption |
| 表格 | Table |
| 表格标题 | Table caption |
| 页眉 | Header |
| 页脚 | Footer |
| 注释 | Reference |
| 公式 | Equation |
数据划分
- 训练集: 5000张图片
- 验证集: 1000张图片
数据分别存储在train和val目录下。
标注格式
标注工具
使用labelme进行标注。
标注字段
- shapes: 包含多个dict,每个dict代表一个标注实例。
- labels: 类别名称。
- points: 实例标注的坐标,以Polygon形式表示。
- shape_type: 固定为"polygon"。
- imagePath: 图片路径或名称。
- imageHeight: 图片高度。
- imageWidth: 图片宽度。
数据下载
数据转换
转换工具
使用labelme2coco.py将labelme格式转换为COCO格式。
转换命令
- 训练集:
python3 labelme2coco.py CDLA_dir/train train_save_path --labels labels.txt - 验证集:
python3 labelme2coco.py CDLA_dir/val val_save_path --labels labels.txt
转换结果保存在train_save_path和val_save_path目录下。
AI搜集汇总
数据集介绍

构建方式
CDLA数据集的构建聚焦于中文文献类文档的版面分析,涵盖了从正文到公式的10个关键标签。数据集的整理过程严谨,通过labelme工具进行标注,确保每个实例的精确性和一致性。训练集和验证集分别包含5000张和1000张图片,为模型训练提供了丰富的数据支持。
使用方法
使用CDLA数据集时,用户可通过HuggingFace的datasets库进行加载,分别获取训练集和验证集的数据。数据集的标注格式与labelme工具一致,便于直接应用于相关模型训练。此外,数据集还提供了转换为COCO格式的脚本,进一步扩展了其应用场景和兼容性。
背景与挑战
背景概述
在文档处理与信息提取领域,中文文档版面分析(CDLA)数据集的引入标志着对复杂文档结构解析的重要进展。该数据集由北京邮电大学(BUPT)的李航团队创建,专注于中文文献类文档的版面分析,涵盖了从正文、标题到图片、表格等多种元素的识别与分类。CDLA数据集的发布,不仅为中文文档处理提供了丰富的标注资源,还推动了相关算法在实际应用中的性能提升,特别是在学术文献的自动化处理方面,具有显著的实际意义。
当前挑战
尽管CDLA数据集在中文文档版面分析领域具有重要价值,但其构建过程中仍面临诸多挑战。首先,文档结构的多样性和复杂性使得标注工作异常繁琐,尤其是对于非规则形状的元素如公式和注释的精确标注。其次,数据集的规模虽已达到数千张图片,但在面对大规模应用时,仍需进一步扩展以提升模型的泛化能力。此外,标注工具的选择与标注格式的标准化也是构建过程中需要克服的难题,确保数据的一致性和可用性。
常用场景
经典使用场景
在文档自动化处理领域,CDLA数据集的经典使用场景主要集中在文档版面分析任务中。通过该数据集,研究者可以训练模型以识别和分类中文文献中的不同版面元素,如标题、正文、图片、表格等。这种分析有助于自动化文档解析和信息提取,特别是在学术论文和研究报告中,能够显著提高文档处理的效率和准确性。
解决学术问题
CDLA数据集解决了中文文档版面分析中的关键学术问题,包括多类别版面元素的精确识别和定位。这一问题的解决对于提高文档自动化处理技术的精度和鲁棒性具有重要意义。通过提供高质量的标注数据,CDLA促进了相关算法的研发和评估,推动了文档分析领域的技术进步。
实际应用
在实际应用中,CDLA数据集被广泛用于构建和优化文档处理系统,如学术文献管理系统、电子书阅读器和文档转换工具。这些系统依赖于精确的版面分析来实现文档内容的自动分类、索引和检索,从而提升用户体验和工作效率。此外,CDLA还支持法律文档、财务报告等专业领域的自动化处理,具有广泛的应用前景。
数据集最近研究
最新研究方向
在文档版面分析领域,CDLA数据集的最新研究方向主要集中在提高中文文献类文档的自动化处理能力。随着自然语言处理和计算机视觉技术的融合,研究者们致力于开发更高效的模型,以准确识别和分类文档中的各种元素,如标题、正文、图片和表格等。这些研究不仅提升了文档解析的精度,还推动了相关技术在学术文献管理、信息检索和自动化出版等应用场景中的实际应用。此外,数据集的标注格式和转换工具的优化也是研究的重点,以确保数据的高质量和易用性,从而促进更广泛的研究和应用。
以上内容由AI搜集并总结生成



