jerteh/SrpKorNews

Name: jerteh/SrpKorNews
Creator: jerteh
Published: 2024-12-20 13:32:38
License: 暂无描述

Hugging Face2024-12-20 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/jerteh/SrpKorNews

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个高度精选的、高质量的塞尔维亚新闻语料库。每行代表一个文档，文档中的句子有明确的分隔符。数据集包含经过自动和手动后处理的塞尔维亚新闻源文章，大约有4.68亿字。

提供机构：

jerteh

原始信息汇总

数据集概述

基本信息

许可证: cc-by-4.0
语言: 塞尔维亚语 (sr)
数据集名称: Serbian WikiMedia dataset
大小: 100M<n<1B

配置

默认配置:
- 数据文件:
  - 分割: train
  - 路径: SrpKorNews.txt

任务类别

文本生成

数据集内容

描述: 包含经过自动和手动后处理的塞尔维亚新闻源文章。
特点:
- 每行代表一个文档。
- 每个文档中的句子通过分隔符分隔。
规模: 约468亿字。

使用示例

python from datasets import load_dataset dataset = load_dataset("jerteh/SrpKorNews") print(dataset["train"][3088])

引用信息

bibtex @Inbook{CvRS2023LRS, author="Krstev, Cvetana and Stankovi{{c}}, Ranka", editor="Rehm, Georg and Way, Andy", title="Language Report Serbian", bookTitle="European Language Equality: A Strategic Agenda for Digital Language Equality ", year="2023", publisher="Springer International Publishing", address="Cham", pages="203--206", isbn="978-3-031-28819-7", doi="10.1007/978-3-031-28819-7_32" }

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个高度策划的塞尔维亚新闻语料库，包含约148.8万行文本，总大小3.24 GB，专为文本生成任务设计。语料经过自动和手动校正，覆盖政治、社会等多领域新闻，语言为塞尔维亚语，采用CC-BY-4.0许可证开放使用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集