procesaur/smece

Name: procesaur/smece
Creator: procesaur
Published: 2024-05-19 15:43:43
License: 暂无描述

Hugging Face2024-05-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/procesaur/smece

下载链接

链接失效反馈

官方服务：

资源简介：

SMEĆE数据集是一个用于文本生成和文本分类任务的数据集，特别是用于训练垃圾文本分类模型。该数据集包含大约15亿个“单词”，这些文本是在准备其他语料库时被标记为垃圾或样板文本的。数据集的语言是塞尔维亚语（sr），并且提供了相关的引用和许可证信息。

提供机构：

procesaur

原始信息汇总

名称: SMEĆE
语言: 塞尔维亚语 (sr)
大小: 10亿至100亿之间
配置:
- 默认配置:
  - 数据文件:
    - stars: stars.boiler.txt
    - train: *.boiler.txt
任务类别:
- 文本生成
- 文本分类
许可证: CC-BY-SA-4.0