five

alexandrainst/lexdk-open

收藏
Hugging Face2024-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/lexdk-open
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自丹麦百科全书Lex.dk的文章,这些文章以宽松的许可证发布,占所有文章的7.5%。数据集的语言为丹麦语,包含11,887个样本。数据集的结构包括URL、标题、澄清、作者、日期、许可证和文本等字段。
提供机构:
alexandrainst
原始信息汇总

数据集卡片 for Lex.dk Open

数据集描述

  • 下载的数据集文件大小: 10.05 MB
  • 生成的数据集大小: 18.34 MB
  • 总磁盘使用量: 28.39 MB

数据集摘要

该数据集包含来自丹麦百科全书Lex.dk的文章。

仅包含使用宽松许可证发布的文章,约占文章总数的7.5%。

语言

数据集提供丹麦语(da)版本。

数据集结构

数据实例

一个数据集示例如下: json { url: https://denstoredanske.lex.dk/Kullmanns_M%C3%B8lle, title: Kullmanns Mølle, clarification: , authors: [https://brugere.lex.dk/6929], date: 2021-01-20T13:23:20+01:00, license: fri anvendelse, text: Kullmanns Mølle er en mølle i Gudhjem, opkaldt efter Matts Kullmann, der byggede møllen i 1893 til sin søn, Christian Kullmann, se Gudhjem Mølle. }

数据字段

所有拆分中的数据字段相同。

  • url: 字符串特征。
  • title: 字符串特征。
  • clarification: 字符串特征。
  • authors: 列表特征。
  • date: 字符串特征。
  • license: 字符串特征。
  • text: 字符串特征。

数据集统计

数据集中有11,887个样本。

文章长度分布

image/png

附加信息

数据集策展人

Dan Saattrup Nielsen 来自 The Alexandra Institute 构建了数据集并将其上传到 Hugging Face Hub。

许可信息

数据集根据 CC BY-SA 4.0 许可 进行许可。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作