five

JoeUnili/FL_History_GER

收藏
Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/JoeUnili/FL_History_GER
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了列支敦士登历史百科全书的所有文章,以及从eliechtensteinen-sia.li网站收集的历史和文化出版物和书籍,全部以文本形式存在。数据集中仅包含一个名为“text”的列,且所有内容均以德语发布,总计约17,000行数据。虽然数据集主要用于预训练,但需要进行进一步的数据清洗,因为存在空行和文本格式错误。数据来源包括多个公开可访问的网页链接,提供了关于列支敦士登历史的详细资料。

该数据集包含了列支敦士登历史百科全书的所有文章,以及从eliechtensteinen-sia.li网站收集的历史和文化出版物和书籍,全部以文本形式存在。数据集中仅包含一个名为“text”的列,且所有内容均以德语发布,总计约17,000行数据。虽然数据集主要用于预训练,但需要进行进一步的数据清洗,因为存在空行和文本格式错误。数据来源包括多个公开可访问的网页链接,提供了关于列支敦士登历史的详细资料。
提供机构:
JoeUnili
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 德语
  • 标签: Liechtenstein, 历史, 文本, 政治, 文化
  • 美观名称: Liechtenstein 历史文本数据集
  • 大小类别: 1K<n<10K

数据集内容

  • 包含Liechtenstein历史百科全书的全部文章,以及从eliechtensteinensia.li收集的历史和文化出版物及书籍。
  • 数据集仅包含一个名为“text”的列。
  • 数据集包含约17,000行。

数据集用途与注意事项

  • 数据集主要用于预训练。
  • 使用前需要进一步的数据清洗,因为存在空行和格式错误,如拼写错误或缺少空格,大部分文本由OCR从PDF生成。

数据来源

  • 历史Liechtenstein百科全书: https://historisches-lexikon.li/
  • Liechtenstein历史书籍: https://www.eliechtensteinensia.li/viewer/fulltext/000475482/2/
  • 至2006年的Liechtenstein历史出版物: https://www.eliechtensteinensia.li/view-er/image/000469038/1/LOG_0000/
  • Liechtenstein政治和社会发展出版物: https://www.eliechtensteinensia.li/view-er/image/000469289/1/LOG_0000/
  • Liechtenstein历史纪录片书籍: https://www.eliechtensteinensia.li/view-er/image/000468149/1/LOG_0000/
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作