five

archiscribe-corpus

收藏
github2021-11-25 更新2024-05-31 收录
下载链接:
https://github.com/jbaiter/archiscribe-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含19世纪德国fraktur文字转录的数据集,旨在提供尽可能多样化的OCR基准数据。目前数据集包含4255行来自112部作品,涵盖73年的出版物。

This dataset comprises transcriptions of 19th-century German Fraktur script, designed to offer a diverse OCR benchmark. Currently, it includes 4,255 lines from 112 works, spanning publications over 73 years.
创建时间:
2017-09-30
原始信息汇总

数据集概述

数据集名称

  • 名称: archiscribe-corpus

数据集目标

  • 目标: 收集尽可能多样化的19世纪德国印刷品的OCR地面实况。

数据集内容

  • 包含内容: 4255行文本,来自112部作品,跨越73年。

统计信息

按年代统计

年代 行数
1800 413
1810 388
1820 380
1830 466
1840 505
1850 424
1860 480
1870 437
1880 379
1890 383

按年份统计

年份 行数
1800 87
1801 152
1803 73
1804 96
1805 5
1812 50
1813 50
1814 50
1815 98
1816 61
1818 54
1819 25
1820 47
1822 3
1823 66
1824 50
1825 99
1827 65
1829 50
1830 95
1832 50
1833 110
1835 50
1836 5
1837 50
1838 64
1839 42
1840 5
1842 113
1843 10
1844 47
1847 100
1848 130
1849 100
1850 100
1851 49
1852 50
1853 49
1854 7
1855 19
1856 50
1858 50
1859 50
1860 100
1861 50
1862 50
1863 10
1864 99
1865 50
1866 50
1867 23
1868 48
1871 10
1872 49
1874 110
1875 50
1876 50
1877 50
1878 98
1879 20
1881 59
1882 50
1883 10
1884 48
1886 96
1887 66
1888 50
1890 40
1892 50
1893 20
1894 75
1895 98
1897 100

按作品统计

标题 日期 来源
Protocoll der ReichsFriedensDeputation zu Rastatt Enthält die Protocolle der ersten bis vierzigsten Sitzung incl 1800 bub_gb_UXdKAAAAcAAJ
Westerwäldisches Idiotikon: Oder Sammlung auf dem Westerwalde gebräuchlichen ... 1800 westerwldisches01schmgoog
Christian Joseph Jagemanns Italiänische Sprachlehre zum Gebrauche derer, welche die italiänische Sprache gründlich erleren wollen 1801 bub_gb_FWR9D_5JMbQC
Oeconomische Encyclopädie oder Allgemeines System der Land, Haus und StaatsWirthschaft in alphabetischer Ordnung 1801 bub_gb_L54UAAAAQAAJ
Versuch einer Lebensgeschichte des geistlichen Raths, Pfarrers und geistlichen Vorstehers des JuliusSpitals Johann Baptist Deppisch 1801 bub_gb_Pl46AAAAcAAJ
Geschichte der zeichnenden Künste von ihrer Wiederauflebung bis auf die neuesten Zeiten 1801 bub_gb_R-4TAAAAQAAJ
Beyträge zur Nördlingischen Geschlechtshistorie ¬Die Nördlingischen Familien und Epitaphien enthaltend 1803 bub_gb_CJZAAAAAcAAJ
Ideen zu einer Philosophie der Natur. 2e, verbesserte und vermehrte Aufl 1803 ideenzueinerphi00schegoog
Neues allgemeines Journal der Chemie 1804 bub_gb_ZrE5AAAAcAAJ
Wanderungen und Spazierfahrten in die Gegenden von Wien 1804 bub_gb_eZcBAAAAYAAJ
Aphorismen zu Vorlesungen über die allgemeine Literargeschichte Aelteste Geschichte bis auf Aristoteles 1805 bub_gb_DuFBAAAAcAAJ
Die Grille Eine Sammlung von Geschichten ... von Gedanken ... und von Betrachtungen ... 1812 bub_gb_SwsoAAAAMAAJ
A.g. Meissners sämmtliche Werke... 1813 agmeissnerssmmt12meisgoog
Heldengemälde aus Roms, Deutschlands und Schwedens Vorzeit der Jugend unseres kriegerischen Zeitalters aufgestellt 1814 bub_gb_0UkDAAAAYAAJ
Neues Magazin aller neuen Erfindungen, Entdeckungen und Verbesserungen für Fabrikanten, Manufakturisten, Künstler, Handwerker und Oekonomen 1815 bub_gb_srxAAAAAcAAJ
Allgemeine Literatur-zeitung 1815 allgemeineliter20unkngoog
Blumenlese aus den Minnesingern: 1. Sammlung 1816 blumenleseausde00mlgoog
Sappho von einem herrschenden Vorurtheil befreyt 1816 bub_gb_LOYVAAAAIAAJ
Recension von Niebuhrs römischer Geschichte in den Heidelberger Jahrbüchern der Litteratur 1816 bub_gb_o5tbAAAAQAAJ
Versuch einer wissenschaftlichen Anleitung zum Studium der ... 1816 versucheinerwis00traugoog
Geographischstatistisches Handbuch über Schlesien und die Grafschaft Glatz 1818 bub_gb_PNcAAAAAcAAJ
Geschichte der Religion Jesu Christi, von F.L., Grafen zu Stolberg (fortgesetzt von F. v. Kerz ... 1818 geschichtederre06kerzgoog
Chronik der königlichen Würtembergischen Stadt Rottenburg und Ehingen am Nekar 1819 bub_gb_3mAAAAAAcAAJ
Allgemeine Enzyklopaedie der Wissenschaften und Kuenste in alphabetischer Folge von genannten Schriftstellern 1820 bub_gb_O6sWAAAAQAAJ
Die Leibnizsche Lehre von der Prastabilirten Harmonie in ihrem ... 1822 dieleibnizschel01sigwgoog
Speyerer wöchentliches AnzeigeBlatt 1823 bub_gb_8vREAAAAcAAJ
Jenaische allgemeine Literatur-Zeitung. Jahrg. 1-[38. With] Intelligenzblatt ... 1823 jenaischeallgem05unkngoog
MilitärWochenblatt Unabhängige Zeitschrift für die deutsche Wehrmacht 1824 bub_gb_nL5FAAAAcAAJ
Die Harzburg und ihre Geschichte: mit 5 Abbildungen 1825 dieharzburgundi00leongoog
Protokolle der deutschen Bundesversammlung 1825 protokollederde10bundgoog
IntelligenzBlatt und wöchentlicher Anzeiger der königlich baierischen Stadt Augsburg 1827 bub_gb_7bdEAAAAcAAJ
Das akademische Kunstmuseum zu Bonn von dem Vorsteher desselben prof. F.G. Welcker 1827 bub_gb_dccEO9Ol47cC
Sämmtliche Schriften 1827 smmtlicheschrif10schigoog
Reise durch das Altai-gebirge und die soongorische Kirgisen-steppe: Auf ... 1829 reisedurchdasal04ledegoog
Das Ausland Eine Wochenschrift für Kunde des geistigen und sittlichen Lebens der Völker 1830 bub_gb_byE8AQAAIAAJ
Das alte Indien, mit besonderer Rücksicht auf Aegypten 1830 dasalteindienmi00bohlgoog
Gesammelte Schriften 1832 gesammelteschri10brgoog
Deutschlands EhrenTempel eine geordnete und mit Anmerkungen begleitete Auswahl der vorzüglichsten ältern und neuern Gedichte, welche das deutsche Land und das deutsche Volk verherrlichen - -
搜集汇总
数据集介绍
main_image_url
构建方式
archiscribe-corpus数据集的构建旨在收集19世纪德国印刷品的多样化OCR(光学字符识别)真实数据。该数据集通过从112部作品中提取4255行文本,涵盖了73年的出版历史。每部作品的文本均来自Archive.org的数字档案,并通过IIIF(国际图像互操作性框架)提供高分辨率的图像和元数据支持。数据集的构建过程注重时间跨度和内容的多样性,确保能够反映19世纪德国印刷品的广泛特征。
特点
archiscribe-corpus数据集的特点在于其时间跨度的广泛性和内容的多样性。数据集涵盖了从1800年至1890年的多个十年,每十年的文本行数分布均匀,确保了时间上的代表性。此外,数据集中的作品类型多样,包括历史文献、科学著作、文学作品等,反映了19世纪德国印刷文化的丰富性。每部作品均提供了详细的元数据,便于研究者进行深入分析。
使用方法
archiscribe-corpus数据集的使用方法主要围绕OCR技术的训练与评估展开。研究者可以通过IIIF接口访问高分辨率的图像数据,结合提供的真实文本进行OCR模型的训练与测试。数据集的时间跨度和内容多样性使其适用于研究OCR技术在不同历史时期和文本类型上的表现。此外,数据集还可用于历史语言学、文本挖掘等领域的研究,帮助探索19世纪德国印刷文化的演变。
背景与挑战
背景概述
archiscribe-corpus数据集旨在为19世纪德国印刷品的OCR(光学字符识别)研究提供多样化的真实文本数据。该数据集由Johannes Baiter等人创建,涵盖了1800年至1890年间112部作品的4255行文本,时间跨度长达73年。这些文本涵盖了历史、文学、科学等多个领域,反映了19世纪德国印刷文化的多样性。该数据集的构建为OCR技术的改进提供了重要的历史文献支持,尤其是在处理复杂字体和旧式印刷格式时,具有重要的研究价值。
当前挑战
archiscribe-corpus数据集在构建过程中面临多重挑战。首先,19世纪德国印刷品的字体多样且复杂,部分文本存在磨损或模糊,增加了OCR识别的难度。其次,历史文献的语言和拼写与现代德语存在差异,导致文本对齐和标注的复杂性。此外,数据集的构建依赖于数字化档案的可用性,部分文献的数字化质量参差不齐,影响了数据的完整性和一致性。这些挑战不仅要求OCR算法具备更高的鲁棒性,还需要研究人员在数据预处理和标注过程中投入大量精力,以确保数据的准确性和可用性。
常用场景
经典使用场景
archiscribe-corpus数据集主要应用于19世纪德国印刷文本的光学字符识别(OCR)研究。该数据集包含了来自112部作品的4255行文本,涵盖了1800年至1890年间的多个年代。这些文本的多样性为OCR算法的训练和评估提供了丰富的素材,尤其是在处理历史文献中的复杂字体和排版时,能够有效提升模型的泛化能力。
衍生相关工作
基于archiscribe-corpus数据集,许多经典的研究工作得以展开。例如,研究人员开发了针对历史文献的专用OCR工具,这些工具在处理复杂字体和排版时表现出色。此外,该数据集还催生了一系列关于文本修复和语义分析的研究,进一步推动了数字人文领域的技术进步。
数据集最近研究
最新研究方向
近年来,随着数字人文和文化遗产数字化研究的兴起,archiscribe-corpus数据集在19世纪德国印刷文本的光学字符识别(OCR)领域展现出重要的研究价值。该数据集涵盖了1800年至1890年间112部作品的4255行文本,为研究者提供了丰富的多样化OCR真实数据。当前的研究方向主要集中在利用深度学习技术提升OCR的准确性,尤其是在处理历史文献中的复杂字体和排版格式时。此外,该数据集还被广泛应用于文本挖掘、语言模型训练以及历史文献的语义分析等领域,推动了19世纪德国文学、历史和文化研究的数字化进程。通过结合IIIF(国际图像互操作框架)技术,研究者能够更高效地访问和利用这些历史文献,进一步促进了跨学科研究的合作与创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作