five

Kansallisarkisto/finnish_court_records

收藏
Hugging Face2024-04-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Kansallisarkisto/finnish_court_records
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含20世纪早期芬兰的法院记录样本。这些法院记录的文本内容是通过使用芬兰法院记录数据训练的HTR模型从扫描的文档图像中提取的。样本中的法院记录日期为1901年至1919年,涵盖了芬兰的8个城市(赫尔辛基、海门林纳、约恩苏、于韦斯屈莱、库奥皮奥、米凯利、奥卢、图尔库)。文本数据是从超过167,000张扫描的文档图像中提取的,每张图像包含一页或两页法院记录。

该数据集包含20世纪早期芬兰的法院记录样本。这些法院记录的文本内容是通过使用芬兰法院记录数据训练的HTR模型从扫描的文档图像中提取的。样本中的法院记录日期为1901年至1919年,涵盖了芬兰的8个城市(赫尔辛基、海门林纳、约恩苏、于韦斯屈莱、库奥皮奥、米凯利、奥卢、图尔库)。文本数据是从超过167,000张扫描的文档图像中提取的,每张图像包含一页或两页法院记录。
提供机构:
Kansallisarkisto
原始信息汇总

数据集概述

数据集名称

Early 20th century court records from Finland

数据集语言

  • fi
  • sv

数据集大小

100K<n<1M

数据集内容

该数据集包含20世纪初芬兰法院记录的样本。文本内容通过训练有素的HTR模型从超过167,000份扫描文档图像中提取,每份文档包含一到两页法院记录。记录涵盖1901至1919年间,来自芬兰8个城市(赫尔辛基、海门林纳、约恩苏、于韦斯屈莱、库奥皮奥、米凯利、奥卢、图尔库)。

数据集结构

数据实例

每个数据实例包含以下字段:

  • data_id: 定义文档所属的档案单元集合的字符串
  • archival_id: 标识包含文档的档案单元的字符串
  • document_id: 标识文档的字符串(每个实例唯一)
  • start_year: 记录集合的起始年份
  • end_year: 记录集合的结束年份
  • text: 使用HTR模型提取的文档页/页的文本内容
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作