five

Newswire Catalan Corpus

收藏
NIAID Data Ecosystem2026-03-14 收录
下载链接:
https://zenodo.org/record/7386860
下载链接
链接失效反馈
官方服务:
资源简介:
The Catalan Newswire Corpus is a 163-million-token corpus of Catalan newswire text built from three major Catalan news providers: Agència Catalana de Notícies, Nació Digital and Vilaweb. It consists of 163.248.451 tokens, 6.317.202 sentences and 410.218 documents. Documents are separated by single new lines. We license the actual packaging of these data under a Attribution-NonCommercial-NoDerivatives 4.0 License. Copyright (c) 2022 Text Mining Unit at BSC

加泰罗尼亚新闻专线语料库(Catalan Newswire Corpus)是一款包含1.63亿个Token(Token)的加泰罗尼亚语新闻文本语料库,其数据源自三家主流加泰罗尼亚新闻机构:加泰罗尼亚通讯社(Agència Catalana de Notícies)、数字报(Nació Digital)以及维拉网(Vilaweb)。 该语料库共计包含163248451个Token、6317202个句子以及410218篇文档,文档以单个换行符分隔。 本语料库的实际打包数据采用署名-非商业性使用-禁止演绎4.0国际许可协议("Attribution-NonCommercial-NoDerivatives 4.0 License")进行授权。 版权所有 © 2022 巴塞罗那超级计算中心(Barcelona Supercomputing Center, BSC)文本挖掘单元。
创建时间:
2022-12-02
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作