procesaur/Vikipedija
收藏Hugging Face2024-11-23 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/procesaur/Vikipedija
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Srpska Vikipedija,包含塞尔维亚语及其他南斯拉夫语言(如克罗地亚语、斯洛文尼亚语、马其顿语等)的维基百科文章。数据集总共有1,660,410个文档,包含超过4.2亿个单词。每个文档以JSON格式存储,段落通过双换行符分隔,句子在段落内有明确的分隔。数据集来源于维基媒体数据集,并且提供了每种语言的文档数量、句子数量和单词数量的详细统计。
Wikipedia in Serbian (and other South-slavic languages) version 1.11.2023 - derived from Wikimedia dataset. A total of 1,660,410 documents containing over 420 million words. Each document is represented by a JSON line. Paragraphs are separated via double new line (
). Each Sentence in a document is delimited.
提供机构:
procesaur



