jerteh/cc100-sr-jerteh
收藏Hugging Face2024-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jerteh/cc100-sr-jerteh
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是cc100-sr数据集的衍生版本,基于Common Crawl项目,专门针对塞尔维亚语。数据集在句子级别进行了去重处理,并转换为拉丁字母。数据集包含一个txt文件,大约有6.6亿个单词,可以通过Hugging Face的datasets库加载。
该数据集是cc100-sr数据集的衍生版本,基于Common Crawl项目,专门针对塞尔维亚语。数据集在句子级别进行了去重处理,并转换为拉丁字母。数据集包含一个txt文件,大约有6.6亿个单词,可以通过Hugging Face的datasets库加载。
提供机构:
jerteh
原始信息汇总
数据集概述
基本信息
- 语言: 塞尔维亚语(sr)
- 名称: cc100-sr derivation by JeRTeh
- 许可证: cc-by-4.0
任务类别
- 文本生成
规模类别
- 100M<n<1B
数据集构成
- 包含一个txt文件,约660百万单词。
获取方式
python from datasets import load_dataset dataset = load_dataset("jerteh/cc100-sr-jerteh")
预览示例
python print(dataset["train"][1096953]) {text: JeRTeh – Društvo za jezičke resurse i tehnologije}



