alexandrainst/domsdatabasen
收藏Hugging Face2024-12-03 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/domsdatabasen
下载链接
链接失效反馈官方服务:
资源简介:
Domsdatabasen数据集是一个包含丹麦法院判决案例的数据库。每个案例包括表格数据和描述性PDF文件。PDF文件经过匿名化处理,包含两个文本版本:`text`(未匿名化)和`text_anon`(匿名化)。数据集主要用于文本生成任务,语言为丹麦语。数据集由Oliver Kinch从Domsdatabasen网站抓取,并遵循CC0许可证。
Domsdatabasen数据集是一个包含丹麦法院判决案例的数据库。每个案例包括表格数据和描述性PDF文件。PDF文件经过匿名化处理,包含两个文本版本:`text`(未匿名化)和`text_anon`(匿名化)。数据集主要用于文本生成任务,语言为丹麦语。数据集由Oliver Kinch从Domsdatabasen网站抓取,并遵循CC0许可证。
提供机构:
alexandrainst
原始信息汇总
数据集卡片 "domsdatabasen"
数据集描述
数据集概述
Domsdatabasen 是一个数据库,您可以在其中找到并阅读由丹麦法院发布的精选判决。
每个判决/案件由表格数据和案件描述性PDF组成。该数据集收集了所有这些案件,每个样本描述一个特定的判决/案件。
PDF文件经过匿名化处理以保护敏感信息。因此,每个样本包含两种文本版本:
text_anon(带有匿名化标签:<anonym>"Some sensitive text"</anonym>)。text(不带匿名化标签)。
text_anon 使用 Easyocr 读取。
text 使用 Easyocr 或 Tika-python 读取,具体取决于PDF和匿名化方法。
如果PDF中未检测到匿名化,text_anon 将为空。
语言
该数据集提供丹麦语(da)版本。
数据集结构
数据集示例如下:
json { "case_id": "id of case/judgment", ... The tabualar string data ..., "text": "pdf text", "text_anon": "anonymized pdf text" "text_len": <number of chars in text>, "text_anon_len": <number of chars in anonymized text> }
数据字段
case_id: 字符串类型。text: 字符串类型。text_anon: 字符串类型。text_len: 整数类型。text_anon_len: 整数类型。
数据集统计
数据集大小
提供PDF文本的两种版本 text 和 text_anon,所有PDF文本的总大小约为 ~199//2 MB。
样本数量
- 3919
PDF文本长度分布
基于 text 的统计数据:
- 最小长度: 192
- 最大长度: 2101736
潜在的数据集问题
请参阅 开放问题。
数据集创建
数据集来源
该数据集从 Domsdatabasen 抓取。
附加信息
数据集许可
该数据集根据 CC0 许可 进行许可。



