BramVanroy/finewiki-nl-30-to-24k-tokens
收藏Hugging Face2025-12-18 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/finewiki-nl-30-to-24k-tokens
下载链接
链接失效反馈官方服务:
资源简介:
这是一个经过过滤的荷兰语维基百科数据集,包含30到24000个空格分隔的标记长度且包含三个或更多句子的文本。数据集排除了存根页面(如概述页面)。数据集的主要特征包括文本内容、ID、维基名称、页面ID、标题、URL、修改日期、语言、维基数据ID、HTML字节数、维基文本、版本、信息框和数学内容标记。
This is a filtered Dutch Wikipedia dataset containing texts between 30 and 24000 white-spaced tokens long and three or more sentences. The dataset excludes stub pages (e.g., overview pages). The main features of the dataset include text content, ID, wiki name, page ID, title, URL, modification date, language, Wikidata ID, HTML bytes, wikitext, version, infoboxes, and math content markers.
提供机构:
BramVanroy



