Kansallisarkisto/finnish_court_records
收藏Hugging Face2024-04-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Kansallisarkisto/finnish_court_records
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含20世纪早期芬兰的法院记录样本。这些法院记录的文本内容是通过使用芬兰法院记录数据训练的HTR模型从扫描的文档图像中提取的。样本中的法院记录日期为1901年至1919年,涵盖了芬兰的8个城市(赫尔辛基、海门林纳、约恩苏、于韦斯屈莱、库奥皮奥、米凯利、奥卢、图尔库)。文本数据是从超过167,000张扫描的文档图像中提取的,每张图像包含一页或两页法院记录。
该数据集包含20世纪早期芬兰的法院记录样本。这些法院记录的文本内容是通过使用芬兰法院记录数据训练的HTR模型从扫描的文档图像中提取的。样本中的法院记录日期为1901年至1919年,涵盖了芬兰的8个城市(赫尔辛基、海门林纳、约恩苏、于韦斯屈莱、库奥皮奥、米凯利、奥卢、图尔库)。文本数据是从超过167,000张扫描的文档图像中提取的,每张图像包含一页或两页法院记录。
提供机构:
Kansallisarkisto
原始信息汇总
数据集概述
数据集名称
Early 20th century court records from Finland
数据集语言
- fi
- sv
数据集大小
100K<n<1M
数据集内容
该数据集包含20世纪初芬兰法院记录的样本。文本内容通过训练有素的HTR模型从超过167,000份扫描文档图像中提取,每份文档包含一到两页法院记录。记录涵盖1901至1919年间,来自芬兰8个城市(赫尔辛基、海门林纳、约恩苏、于韦斯屈莱、库奥皮奥、米凯利、奥卢、图尔库)。
数据集结构
数据实例
每个数据实例包含以下字段:
- data_id: 定义文档所属的档案单元集合的字符串
- archival_id: 标识包含文档的档案单元的字符串
- document_id: 标识文档的字符串(每个实例唯一)
- start_year: 记录集合的起始年份
- end_year: 记录集合的结束年份
- text: 使用HTR模型提取的文档页/页的文本内容



