five

almanach/LADaS

收藏
Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/almanach/LADaS
下载链接
链接失效反馈
官方服务:
资源简介:
LADaS数据集是一个多文档历时布局分析数据集,包含了从17世纪至今的多种文档类型,如专著、博士论文、销售目录、学术论文等。数据格式为YoloV8 bbox格式,主要使用SegmOnto词汇进行标注。数据集由Inria的ALMANaCH团队创建,并与其他研究人员合作继续开发。数据集的结构包括8个字段,如图像路径、年份、图像、宽度、高度等,并且包含对象的边界框和类别信息。

LADaS, created by the ALMANaCH team-project at Inria, is a multidocuments diachronic layout analysis dataset. It includes various types of documents such as monographs from the Bibliothèque Nationale de France, PhD theses, selling catalogs, noisy digitized documents, academic papers, technology and video game magazines, etc. The data are in YoloV8 bbox format, primarily using Latin script, with the main language being French and some representation of the main western academic languages. The annotations use the SegmOnto vocabulary, and a detailed annotation guide is provided. The dataset is curated by Thibault Clérice and Juliette Janès, funded by Défi COLaF and Inria, and licensed under CC-BY.
提供机构:
almanach
原始信息汇总

LADaS: Layout Analysis Dataset with SegmOnto

数据集详情

  • 创建者: ALMANaCH团队项目,Inria
  • 合作伙伴: 其他研究人员
  • 类型: 多文档历时布局分析数据集
  • 包含内容:
    • 法国国家图书馆的专著(17世纪至今)
    • 博士论文(20-21世纪,不限于STEM领域)
    • 销售目录(18-20世纪,手稿和艺术品)
    • 噪声数字化(如手指遮挡,20-21世纪)
    • 学术论文(主要为人文和社会科学,19-21世纪)
    • 技术与电子游戏杂志(1920s-2010)
    • 其他杂项
  • 数据格式: YoloV8 bbox格式(center_x center_y width height)
  • 语言: 主要为法语,包含主要西方学术语言

标注

  • 标注工具: SegmOnto词汇表
  • 标注指南: AnnotationGuide.md
  • 标注者:
    • Clérice, Thibault
    • Janès, Juliette
    • Scheithauer, Hugo
    • Bénière, Sarah
    • Bougrelle, Roxane
    • [匿名,待论文发表]

数据集描述

  • 策划者: Thibault Clérice & Juliette Janès
  • 资助: Défi COLaF, Inria
  • 许可证: CC-BY

用途

  • 直接用途: 布局分析

数据集结构

  • 字段:
    • image_path: 文件的字符串标识符
    • year: 生产年份,可为空
    • dating-certainty: 用于指定基于日期范围和世纪范围自动提供的日期
    • set: 数据子集,包括theatre(戏剧)、monographies(专著)、theses(博士论文)等
    • image: 图像
    • widthheight: 图像的宽度和高度
    • objects: 包含以下条目的字典:
      • bbox: 使用COCO/YOLO格式的bbox序列(相对center_x, center_y, width, height)
      • category: 每个bbox的标注类别的纯文本表示,共41个类别
      • objects可以包含空的bbox列表和空的category列表,表示图像不包含任何对象

引用

BibTeX:

tex @misc{Clerice_Layout_Analysis_Dataset, author = {Clérice, Thibault and Janès, Juliette and Scheithauer, Hugo and Bénière, Sarah and Bougrelle, Roxane and Romary, Laurent and Sagot, Benoit}, title = {{Layout Analysis Dataset with SegmOnto (LADaS)}}, url = {https://github.com/DEFI-COLaF/LADaS} }

数据集卡片联系

Thibault Clérice 或 Juliette Janes (first.last@inria.fr)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作