jerteh/cc100-sr-jerteh

Name: jerteh/cc100-sr-jerteh
Creator: jerteh
Published: 2024-03-25 13:42:36
License: 暂无描述

Hugging Face2024-03-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jerteh/cc100-sr-jerteh

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是cc100-sr数据集的衍生版本，基于Common Crawl项目，专门针对塞尔维亚语。数据集在句子级别进行了去重处理，并转换为拉丁字母。数据集包含一个txt文件，大约有6.6亿个单词，可以通过Hugging Face的datasets库加载。

提供机构：

jerteh

原始信息汇总

数据集概述

python from datasets import load_dataset dataset = load_dataset("jerteh/cc100-sr-jerteh")

python print(dataset["train"][1096953]) {text: JeRTeh – Društvo za jezičke resurse i tehnologije}

5,000+

优质数据集

54 个

任务类型

进入经典数据集