JoeUnili/FL_History_GER
收藏Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/JoeUnili/FL_History_GER
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了列支敦士登历史百科全书的所有文章,以及从eliechtensteinen-sia.li网站收集的历史和文化出版物和书籍,全部以文本形式存在。数据集中仅包含一个名为“text”的列,且所有内容均以德语发布,总计约17,000行数据。虽然数据集主要用于预训练,但需要进行进一步的数据清洗,因为存在空行和文本格式错误。数据来源包括多个公开可访问的网页链接,提供了关于列支敦士登历史的详细资料。
该数据集包含了列支敦士登历史百科全书的所有文章,以及从eliechtensteinen-sia.li网站收集的历史和文化出版物和书籍,全部以文本形式存在。数据集中仅包含一个名为“text”的列,且所有内容均以德语发布,总计约17,000行数据。虽然数据集主要用于预训练,但需要进行进一步的数据清洗,因为存在空行和文本格式错误。数据来源包括多个公开可访问的网页链接,提供了关于列支敦士登历史的详细资料。
提供机构:
JoeUnili
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本生成
- 语言: 德语
- 标签: Liechtenstein, 历史, 文本, 政治, 文化
- 美观名称: Liechtenstein 历史文本数据集
- 大小类别: 1K<n<10K
数据集内容
- 包含Liechtenstein历史百科全书的全部文章,以及从eliechtensteinensia.li收集的历史和文化出版物及书籍。
- 数据集仅包含一个名为“text”的列。
- 数据集包含约17,000行。
数据集用途与注意事项
- 数据集主要用于预训练。
- 使用前需要进一步的数据清洗,因为存在空行和格式错误,如拼写错误或缺少空格,大部分文本由OCR从PDF生成。
数据来源
- 历史Liechtenstein百科全书: https://historisches-lexikon.li/
- Liechtenstein历史书籍: https://www.eliechtensteinensia.li/viewer/fulltext/000475482/2/
- 至2006年的Liechtenstein历史出版物: https://www.eliechtensteinensia.li/view-er/image/000469038/1/LOG_0000/
- Liechtenstein政治和社会发展出版物: https://www.eliechtensteinensia.li/view-er/image/000469289/1/LOG_0000/
- Liechtenstein历史纪录片书籍: https://www.eliechtensteinensia.li/view-er/image/000468149/1/LOG_0000/



