archiscribe-corpus
收藏github2021-11-25 更新2024-05-31 收录
下载链接:
https://github.com/jbaiter/archiscribe-corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含19世纪德国fraktur文字转录的数据集,旨在提供尽可能多样化的OCR基准数据。目前数据集包含4255行来自112部作品,涵盖73年的出版物。
This dataset comprises transcriptions of 19th-century German Fraktur script, designed to offer a diverse OCR benchmark. Currently, it includes 4,255 lines from 112 works, spanning publications over 73 years.
创建时间:
2017-09-30
原始信息汇总
数据集概述
数据集名称
- 名称: archiscribe-corpus
数据集目标
- 目标: 收集尽可能多样化的19世纪德国印刷品的OCR地面实况。
数据集内容
- 包含内容: 4255行文本,来自112部作品,跨越73年。
统计信息
按年代统计
| 年代 | 行数 |
|---|---|
| 1800 | 413 |
| 1810 | 388 |
| 1820 | 380 |
| 1830 | 466 |
| 1840 | 505 |
| 1850 | 424 |
| 1860 | 480 |
| 1870 | 437 |
| 1880 | 379 |
| 1890 | 383 |
按年份统计
| 年份 | 行数 |
|---|---|
| 1800 | 87 |
| 1801 | 152 |
| 1803 | 73 |
| 1804 | 96 |
| 1805 | 5 |
| 1812 | 50 |
| 1813 | 50 |
| 1814 | 50 |
| 1815 | 98 |
| 1816 | 61 |
| 1818 | 54 |
| 1819 | 25 |
| 1820 | 47 |
| 1822 | 3 |
| 1823 | 66 |
| 1824 | 50 |
| 1825 | 99 |
| 1827 | 65 |
| 1829 | 50 |
| 1830 | 95 |
| 1832 | 50 |
| 1833 | 110 |
| 1835 | 50 |
| 1836 | 5 |
| 1837 | 50 |
| 1838 | 64 |
| 1839 | 42 |
| 1840 | 5 |
| 1842 | 113 |
| 1843 | 10 |
| 1844 | 47 |
| 1847 | 100 |
| 1848 | 130 |
| 1849 | 100 |
| 1850 | 100 |
| 1851 | 49 |
| 1852 | 50 |
| 1853 | 49 |
| 1854 | 7 |
| 1855 | 19 |
| 1856 | 50 |
| 1858 | 50 |
| 1859 | 50 |
| 1860 | 100 |
| 1861 | 50 |
| 1862 | 50 |
| 1863 | 10 |
| 1864 | 99 |
| 1865 | 50 |
| 1866 | 50 |
| 1867 | 23 |
| 1868 | 48 |
| 1871 | 10 |
| 1872 | 49 |
| 1874 | 110 |
| 1875 | 50 |
| 1876 | 50 |
| 1877 | 50 |
| 1878 | 98 |
| 1879 | 20 |
| 1881 | 59 |
| 1882 | 50 |
| 1883 | 10 |
| 1884 | 48 |
| 1886 | 96 |
| 1887 | 66 |
| 1888 | 50 |
| 1890 | 40 |
| 1892 | 50 |
| 1893 | 20 |
| 1894 | 75 |
| 1895 | 98 |
| 1897 | 100 |
按作品统计
| 标题 | 日期 | 来源 |
|---|---|---|
| Protocoll der ReichsFriedensDeputation zu Rastatt Enthält die Protocolle der ersten bis vierzigsten Sitzung incl | 1800 | bub_gb_UXdKAAAAcAAJ |
| Westerwäldisches Idiotikon: Oder Sammlung auf dem Westerwalde gebräuchlichen ... | 1800 | westerwldisches01schmgoog |
| Christian Joseph Jagemanns Italiänische Sprachlehre zum Gebrauche derer, welche die italiänische Sprache gründlich erleren wollen | 1801 | bub_gb_FWR9D_5JMbQC |
| Oeconomische Encyclopädie oder Allgemeines System der Land, Haus und StaatsWirthschaft in alphabetischer Ordnung | 1801 | bub_gb_L54UAAAAQAAJ |
| Versuch einer Lebensgeschichte des geistlichen Raths, Pfarrers und geistlichen Vorstehers des JuliusSpitals Johann Baptist Deppisch | 1801 | bub_gb_Pl46AAAAcAAJ |
| Geschichte der zeichnenden Künste von ihrer Wiederauflebung bis auf die neuesten Zeiten | 1801 | bub_gb_R-4TAAAAQAAJ |
| Beyträge zur Nördlingischen Geschlechtshistorie ¬Die Nördlingischen Familien und Epitaphien enthaltend | 1803 | bub_gb_CJZAAAAAcAAJ |
| Ideen zu einer Philosophie der Natur. 2e, verbesserte und vermehrte Aufl | 1803 | ideenzueinerphi00schegoog |
| Neues allgemeines Journal der Chemie | 1804 | bub_gb_ZrE5AAAAcAAJ |
| Wanderungen und Spazierfahrten in die Gegenden von Wien | 1804 | bub_gb_eZcBAAAAYAAJ |
| Aphorismen zu Vorlesungen über die allgemeine Literargeschichte Aelteste Geschichte bis auf Aristoteles | 1805 | bub_gb_DuFBAAAAcAAJ |
| Die Grille Eine Sammlung von Geschichten ... von Gedanken ... und von Betrachtungen ... | 1812 | bub_gb_SwsoAAAAMAAJ |
| A.g. Meissners sämmtliche Werke... | 1813 | agmeissnerssmmt12meisgoog |
| Heldengemälde aus Roms, Deutschlands und Schwedens Vorzeit der Jugend unseres kriegerischen Zeitalters aufgestellt | 1814 | bub_gb_0UkDAAAAYAAJ |
| Neues Magazin aller neuen Erfindungen, Entdeckungen und Verbesserungen für Fabrikanten, Manufakturisten, Künstler, Handwerker und Oekonomen | 1815 | bub_gb_srxAAAAAcAAJ |
| Allgemeine Literatur-zeitung | 1815 | allgemeineliter20unkngoog |
| Blumenlese aus den Minnesingern: 1. Sammlung | 1816 | blumenleseausde00mlgoog |
| Sappho von einem herrschenden Vorurtheil befreyt | 1816 | bub_gb_LOYVAAAAIAAJ |
| Recension von Niebuhrs römischer Geschichte in den Heidelberger Jahrbüchern der Litteratur | 1816 | bub_gb_o5tbAAAAQAAJ |
| Versuch einer wissenschaftlichen Anleitung zum Studium der ... | 1816 | versucheinerwis00traugoog |
| Geographischstatistisches Handbuch über Schlesien und die Grafschaft Glatz | 1818 | bub_gb_PNcAAAAAcAAJ |
| Geschichte der Religion Jesu Christi, von F.L., Grafen zu Stolberg (fortgesetzt von F. v. Kerz ... | 1818 | geschichtederre06kerzgoog |
| Chronik der königlichen Würtembergischen Stadt Rottenburg und Ehingen am Nekar | 1819 | bub_gb_3mAAAAAAcAAJ |
| Allgemeine Enzyklopaedie der Wissenschaften und Kuenste in alphabetischer Folge von genannten Schriftstellern | 1820 | bub_gb_O6sWAAAAQAAJ |
| Die Leibnizsche Lehre von der Prastabilirten Harmonie in ihrem ... | 1822 | dieleibnizschel01sigwgoog |
| Speyerer wöchentliches AnzeigeBlatt | 1823 | bub_gb_8vREAAAAcAAJ |
| Jenaische allgemeine Literatur-Zeitung. Jahrg. 1-[38. With] Intelligenzblatt ... | 1823 | jenaischeallgem05unkngoog |
| MilitärWochenblatt Unabhängige Zeitschrift für die deutsche Wehrmacht | 1824 | bub_gb_nL5FAAAAcAAJ |
| Die Harzburg und ihre Geschichte: mit 5 Abbildungen | 1825 | dieharzburgundi00leongoog |
| Protokolle der deutschen Bundesversammlung | 1825 | protokollederde10bundgoog |
| IntelligenzBlatt und wöchentlicher Anzeiger der königlich baierischen Stadt Augsburg | 1827 | bub_gb_7bdEAAAAcAAJ |
| Das akademische Kunstmuseum zu Bonn von dem Vorsteher desselben prof. F.G. Welcker | 1827 | bub_gb_dccEO9Ol47cC |
| Sämmtliche Schriften | 1827 | smmtlicheschrif10schigoog |
| Reise durch das Altai-gebirge und die soongorische Kirgisen-steppe: Auf ... | 1829 | reisedurchdasal04ledegoog |
| Das Ausland Eine Wochenschrift für Kunde des geistigen und sittlichen Lebens der Völker | 1830 | bub_gb_byE8AQAAIAAJ |
| Das alte Indien, mit besonderer Rücksicht auf Aegypten | 1830 | dasalteindienmi00bohlgoog |
| Gesammelte Schriften | 1832 | gesammelteschri10brgoog |
| Deutschlands EhrenTempel eine geordnete und mit Anmerkungen begleitete Auswahl der vorzüglichsten ältern und neuern Gedichte, welche das deutsche Land und das deutsche Volk verherrlichen | - | - |
搜集汇总
数据集介绍

构建方式
archiscribe-corpus数据集的构建旨在收集19世纪德国印刷品的多样化OCR(光学字符识别)真实数据。该数据集通过从112部作品中提取4255行文本,涵盖了73年的出版历史。每部作品的文本均来自Archive.org的数字档案,并通过IIIF(国际图像互操作性框架)提供高分辨率的图像和元数据支持。数据集的构建过程注重时间跨度和内容的多样性,确保能够反映19世纪德国印刷品的广泛特征。
特点
archiscribe-corpus数据集的特点在于其时间跨度的广泛性和内容的多样性。数据集涵盖了从1800年至1890年的多个十年,每十年的文本行数分布均匀,确保了时间上的代表性。此外,数据集中的作品类型多样,包括历史文献、科学著作、文学作品等,反映了19世纪德国印刷文化的丰富性。每部作品均提供了详细的元数据,便于研究者进行深入分析。
使用方法
archiscribe-corpus数据集的使用方法主要围绕OCR技术的训练与评估展开。研究者可以通过IIIF接口访问高分辨率的图像数据,结合提供的真实文本进行OCR模型的训练与测试。数据集的时间跨度和内容多样性使其适用于研究OCR技术在不同历史时期和文本类型上的表现。此外,数据集还可用于历史语言学、文本挖掘等领域的研究,帮助探索19世纪德国印刷文化的演变。
背景与挑战
背景概述
archiscribe-corpus数据集旨在为19世纪德国印刷品的OCR(光学字符识别)研究提供多样化的真实文本数据。该数据集由Johannes Baiter等人创建,涵盖了1800年至1890年间112部作品的4255行文本,时间跨度长达73年。这些文本涵盖了历史、文学、科学等多个领域,反映了19世纪德国印刷文化的多样性。该数据集的构建为OCR技术的改进提供了重要的历史文献支持,尤其是在处理复杂字体和旧式印刷格式时,具有重要的研究价值。
当前挑战
archiscribe-corpus数据集在构建过程中面临多重挑战。首先,19世纪德国印刷品的字体多样且复杂,部分文本存在磨损或模糊,增加了OCR识别的难度。其次,历史文献的语言和拼写与现代德语存在差异,导致文本对齐和标注的复杂性。此外,数据集的构建依赖于数字化档案的可用性,部分文献的数字化质量参差不齐,影响了数据的完整性和一致性。这些挑战不仅要求OCR算法具备更高的鲁棒性,还需要研究人员在数据预处理和标注过程中投入大量精力,以确保数据的准确性和可用性。
常用场景
经典使用场景
archiscribe-corpus数据集主要应用于19世纪德国印刷文本的光学字符识别(OCR)研究。该数据集包含了来自112部作品的4255行文本,涵盖了1800年至1890年间的多个年代。这些文本的多样性为OCR算法的训练和评估提供了丰富的素材,尤其是在处理历史文献中的复杂字体和排版时,能够有效提升模型的泛化能力。
衍生相关工作
基于archiscribe-corpus数据集,许多经典的研究工作得以展开。例如,研究人员开发了针对历史文献的专用OCR工具,这些工具在处理复杂字体和排版时表现出色。此外,该数据集还催生了一系列关于文本修复和语义分析的研究,进一步推动了数字人文领域的技术进步。
数据集最近研究
最新研究方向
近年来,随着数字人文和文化遗产数字化研究的兴起,archiscribe-corpus数据集在19世纪德国印刷文本的光学字符识别(OCR)领域展现出重要的研究价值。该数据集涵盖了1800年至1890年间112部作品的4255行文本,为研究者提供了丰富的多样化OCR真实数据。当前的研究方向主要集中在利用深度学习技术提升OCR的准确性,尤其是在处理历史文献中的复杂字体和排版格式时。此外,该数据集还被广泛应用于文本挖掘、语言模型训练以及历史文献的语义分析等领域,推动了19世纪德国文学、历史和文化研究的数字化进程。通过结合IIIF(国际图像互操作框架)技术,研究者能够更高效地访问和利用这些历史文献,进一步促进了跨学科研究的合作与创新。
以上内容由遇见数据集搜集并总结生成



