five

srwac

收藏
huggingface.co2025-01-21 收录
下载链接:
https://huggingface.co/datasets/community-datasets/srwac
下载链接
链接失效反馈
官方服务:
资源简介:
The Serbian web corpus srWaC was built by crawling the .rs top-level domain in 2014. The corpus was near-deduplicated on paragraph level, normalised via diacritic restoration, morphosyntactically annotated and lemmatised. The corpus is shuffled by paragraphs. Each paragraph contains metadata on the URL, domain and language identification (Serbian vs. Croatian). Version 1.0 of this corpus is described in http://www.aclweb.org/anthology/W14-0405. Version 1.1 contains newer and better linguistic annotations.

塞尔维亚网络语料库srWaC于2014年通过爬取.rs顶级域名构建而成。该语料库在段落层面近乎去重,通过重音恢复实现标准化,进行了形态句法标注和词形还原。语料库段落顺序被打乱。每个段落包含关于URL、域名和语言识别(塞尔维亚语与克罗地亚语)的元数据。 版本1.0的该语料库在http://www.aclweb.org/anthology/W14-0405中进行了描述。版本1.1包含了更新、更完善的语言标注。
提供机构:
Community Datasets
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作