five

Written corpus ccGigafida 1.0

收藏
SSH Open MarketPlace2025-07-04 更新2025-07-05 收录
下载链接:
https://marketplace.sshopencloud.eu/dataset/3lCxIH
下载链接
链接失效反馈
官方服务:
资源简介:
This corpus includes representative Slovenian texts (newspapers, magazines, computer-mediated communication, fiction and non-fiction) published between 1990 and 2011. The corpus is encoded in TEI. Non-linguistic metadata includes information on source, year of publication, text type, title, author. This corpus is a downloadable subset of the representative Gigafida corpus (version 1). It can be downloaded from the CLARIN.SI repository.

本语料库收录了1990年至2011年间发布的具有代表性的斯洛文尼亚语文本,涵盖报纸、期刊、计算机媒介通信内容、虚构类与非虚构类作品。该语料库采用TEI编码格式。其非语言元数据包含来源、发布年份、文本类型、标题、作者等相关信息。 本语料库为代表性Gigafida语料库(版本1)的可下载子集,可从CLARIN.SI知识库下载。
创建时间:
2025-07-04
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作