five

procesaur/Vikipedija

收藏
Hugging Face2024-11-23 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/procesaur/Vikipedija
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Srpska Vikipedija,包含塞尔维亚语及其他南斯拉夫语言(如克罗地亚语、斯洛文尼亚语、马其顿语等)的维基百科文章。数据集总共有1,660,410个文档,包含超过4.2亿个单词。每个文档以JSON格式存储,段落通过双换行符分隔,句子在段落内有明确的分隔。数据集来源于维基媒体数据集,并且提供了每种语言的文档数量、句子数量和单词数量的详细统计。

Wikipedia in Serbian (and other South-slavic languages) version 1.11.2023 - derived from Wikimedia dataset. A total of 1,660,410 documents containing over 420 million words. Each document is represented by a JSON line. Paragraphs are separated via double new line ( ). Each Sentence in a document is delimited.
提供机构:
procesaur
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作