five

oliverkinch/tidsskrift-dk

收藏
Hugging Face2026-04-30 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/oliverkinch/tidsskrift-dk
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - da license: cc-by-4.0 size_categories: - 1K<n<10K task_categories: - text-generation tags: - danish - academic - tidsskrift.dk - danish-foundation-models pretty_name: tidsskrift-dk --- # tidsskrift-dk Danish academic articles scraped from [tidsskrift.dk](https://tidsskrift.dk), the Royal Danish Library's national portal for open-access journals. All articles are published under a CC BY license. Collected as part of the [Danish Foundation Models](https://github.com/centre-for-humanities-computing/danish-foundation-models) project. ## Dataset composition 5,699 articles across 16 journals. PDFs were converted to markdown using [Docling](https://github.com/DS4SD/docling). Articles in English, Norwegian, Swedish, or other non-Danish languages have been removed based on automatic language detection. | Journal | Articles | Topic | |---|---|---| | K&K – Kultur og Klasse | 1,141 | Humanities: literature, art, film, music, cultural studies | | Politica | 972 | Political science | | Passage | 814 | Literature and literary criticism — mix of creative writing, academic articles, and editorials | | Religionsvidenskabeligt Tidsskrift | 687 | Religious studies | | Kierkegaardiana | 356 | Kierkegaard scholarship | | Periskop | 272 | Art history | | Dansk Tidsskrift for Teologi og Kirke | 237 | Theology and church studies | | Forum for Idræt | 230 | Sports and physical activity | | Politik | 193 | Interdisciplinary political studies | | Tidsskrift for Arbejdsliv | 183 | Working life, work environment, labour market | | Journalistica | 170 | Journalism research | | Forskning i Pædagogers Profession og Uddannelse | 144 | Pedagogy and educator training | | Dansk Tidsskrift for Akutmedicin | 124 | Emergency medicine | | Fra Kvangård til Humlekule | 109 | Garden history | | Tidsskrift for Uddannelsesvidenskab | 37 | Education science | | Prototyper – Studier i design | 29 | Design studies | ## Fields | Field | Description | |---|---| | `text` | Full article text in markdown format | | `journal` | Journal slug (matches tidsskrift.dk URL) | | `journal_description` | Short description of the journal in Danish | | `title` | Article title | | `authors` | List of authors | | `doi` | DOI if available | | `date` | Publication date | | `url` | Source URL on tidsskrift.dk | | `license` | Always `CC BY` | ## Filtering - Non-Danish articles removed via `langdetect` (accepted: `da`) - Removed: tables of contents, abstract-only pages, reviewer acknowledgements - PDFs with fewer than 300 extractable characters were excluded ## License All articles are published under a [Creative Commons Attribution (CC BY)](https://creativecommons.org/licenses/by/4.0/) license. Attribution goes to the individual authors and journals.

The tidsskrift-dk dataset consists of Danish academic articles scraped from tidsskrift.dk, the Royal Danish Librarys national portal for open-access journals. All articles are published under a CC BY license. Collected as part of the Danish Foundation Models project, the dataset includes 5,699 articles across 16 journals, covering topics such as humanities, political science, literature, and religious studies. PDFs were converted to markdown using Docling, and non-Danish articles were removed. The dataset features fields like full article text, journal information, authors, and DOI, with rigorous language detection and content filtering applied.
提供机构:
oliverkinch
搜集汇总
数据集介绍
main_image_url
构建方式
tidsskrift-dk数据集源自丹麦皇家图书馆的国家开放获取期刊门户tidsskrift.dk,旨在为丹麦语学术文本生成模型提供高质量的预训练语料。该数据集通过自动化爬取手段收集了16本期刊的5,699篇论文,所有文章均以CC BY许可发布。原始PDF文件借助Docling工具转换为Markdown格式,并利用langdetect库进行语言自动检测,剔除了英语、挪威语、瑞典语等其他语言的文章,仅保留丹麦语内容。此外,在预处理阶段移除了目录、摘要页、审稿致谢等非正文元素,并排除了可提取字符数不足300的PDF,从而确保语料的纯净性与完整性。
使用方法
适用于基于Transformer架构的丹麦语文本生成与语言建模任务,可直接作为训练集或评测集使用。用户可通过HuggingFace数据集库加载数据,利用'text'字段获取全文内容,结合'journal'与'title'字段进行领域筛选或任务划分。建议在微调前对文本进行长度统计分析,以适应不同模型的上下文窗口。由于数据来源于开放获取期刊并遵循CC BY许可,使用时需注意对原作者及期刊的署名义务,且在学术出版物中应引用相应文章DOI以尊重知识产权。
背景与挑战
背景概述
在自然语言处理领域,高质量、领域专属的语料库是构建稳健语言模型的基础,尤其对于丹麦语等资源相对稀缺的语言而言,其重要性不言而喻。tidsskrift-dk数据集由丹麦皇家图书馆与哥本哈根大学人文计算中心于近年联合创建,旨在为丹麦基础语言模型项目提供学术文本支持。该数据集收录了来自tidsskrift.dk门户的5,699篇丹麦语开放获取期刊文章,覆盖人文、社会科学及部分医学领域,包括文学、政治学、神学、设计研究等16种期刊。其核心研究问题聚焦于如何从异构的学术PDF中提取并构建结构化、高纯净度的丹麦语文本资源,从而支撑学术领域的文本生成与语言理解任务。该数据集以其合规的CC BY许可协议和系统化的过滤流程,为丹麦语NLP研究提供了宝贵的开源基准,显著推动了低资源语言在学术场景下的模型训练与评估。
当前挑战
tidsskrift-dk数据集面临的核心挑战源自多维度复杂性。在领域问题的层面,其致力于解决丹麦语学术文本的建模难题,包括处理学术写作中特有的长句结构、专业术语以及跨学科语体差异,这些都对语言模型的泛化能力提出要求。在构建过程中,团队需克服PDF格式转换中的信息损失与噪声问题,例如页眉页脚、图表标注和引用格式的干扰;同时,利用自动语言检测剔除混杂其中的英文、挪威文及瑞典文文章,但低资源语言的检测精度仍可能引入误差。此外,部分期刊(如Passage)混有创作类内容与学术论文,如何精确区分并保持数据纯净性,是过滤环节的显著挑战。最后,数据规模仅为千量级,这限制了模型在不同学术子领域的充分学习,易引发过拟合风险。
常用场景
经典使用场景
tidsskrift-dk数据集汇聚了来自丹麦皇家图书馆开放获取期刊门户的5,699篇学术文章,涵盖人文、社会科学与医学等多个领域,如文学、政治学、神学、体育科学及急诊医学等。其经典使用场景聚焦于丹麦语文本生成任务,尤其是面向学术领域的语言模型预训练与微调。研究者可借助该数据集的丰富文本语料,训练能够理解并生成丹麦语学术内容的大规模语言模型,从而为低资源语言的自然语言处理研究提供高质量基础。
解决学术问题
该数据集有效缓解了丹麦语在学术自然语言处理领域的数据稀缺问题。在此之前,丹麦语的高质量学术语料库极为匮乏,限制了针对该语言的模型能力提升。tidsskrift-dk通过系统化爬取、清洗与过滤,提供了涵盖多学科的标准化文本资源,支持研究者探索跨领域的语言规律、学术写作风格建模以及基于丹麦语的生成式模型训练。其出版许可与元数据完备性(如DOI、作者信息)进一步推动了可复现研究与开放科学的发展。
实际应用
在实际应用中,tidsskrift-dk可服务于丹麦语学术写作辅助工具的开发,例如自动摘要生成、文献综述撰写或术语建议系统。此外,该数据集还能支持多语言信息检索系统的优化,帮助丹麦研究机构挖掘本国学术成果。在数字人文学科中,基于该数据集的模型可加速文本分类(如按期刊或主题归类)、历史文献分析或跨语种知识迁移,从而提升丹麦语学术资源的可访问性与利用效率。
数据集最近研究
最新研究方向
该数据集聚焦于丹麦语学术文本的语料构建与生成模型预训练,当前前沿方向涵盖低资源语言的自然语言处理、北欧语言模型评估与跨语言迁移学习。随着丹麦基础模型项目(Danish Foundation Models)的推进,tidsskrift-dk为丹麦语学术场景提供了高质量、多学科(人文、社科、医学等)的文本资源,尤其适用于检测模型在学术摘要生成、领域术语理解与丹麦语文化知识传承中的表现。该数据集的开放获取属性(CC BY许可)与严格的语言过滤机制,使其成为丹麦语NLP研究不可忽视的基础设施,相关成果有望推动斯堪的纳维亚语言模型的公正性评估与数字化人文研究转型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作