srwac
收藏OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/srwac?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
SrWac主要面向塞尔维亚语,通过爬取.rs顶级域名构建,数据规模接近17GB。它主要用于文本生成和Masked Language Modeling任务,并采用CC-BY-SA 3.0授权许可。该语料库经过段落级别的去重、变音符号恢复标准化,以及词性标注和词形还原,每个段落包含URL、域名和语言识别(塞尔维亚语与克罗地亚语)的元数据。
提供机构:
AIWizards
创建时间:
2024-07-19



