alexandrainst/lexdk-open
收藏Hugging Face2024-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/lexdk-open
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自丹麦百科全书Lex.dk的文章,这些文章以宽松的许可证发布,占所有文章的7.5%。数据集的语言为丹麦语,包含11,887个样本。数据集的结构包括URL、标题、澄清、作者、日期、许可证和文本等字段。
提供机构:
alexandrainst
原始信息汇总
数据集卡片 for Lex.dk Open
数据集描述
- 下载的数据集文件大小: 10.05 MB
- 生成的数据集大小: 18.34 MB
- 总磁盘使用量: 28.39 MB
数据集摘要
该数据集包含来自丹麦百科全书Lex.dk的文章。
仅包含使用宽松许可证发布的文章,约占文章总数的7.5%。
语言
数据集提供丹麦语(da)版本。
数据集结构
数据实例
一个数据集示例如下: json { url: https://denstoredanske.lex.dk/Kullmanns_M%C3%B8lle, title: Kullmanns Mølle, clarification: , authors: [https://brugere.lex.dk/6929], date: 2021-01-20T13:23:20+01:00, license: fri anvendelse, text: Kullmanns Mølle er en mølle i Gudhjem, opkaldt efter Matts Kullmann, der byggede møllen i 1893 til sin søn, Christian Kullmann, se Gudhjem Mølle. }
数据字段
所有拆分中的数据字段相同。
url: 字符串特征。title: 字符串特征。clarification: 字符串特征。authors: 列表特征。date: 字符串特征。license: 字符串特征。text: 字符串特征。
数据集统计
数据集中有11,887个样本。
文章长度分布

附加信息
数据集策展人
Dan Saattrup Nielsen 来自 The Alexandra Institute 构建了数据集并将其上传到 Hugging Face Hub。
许可信息
数据集根据 CC BY-SA 4.0 许可 进行许可。



