five

cjvt/cc_gigafida

收藏
Hugging Face2023-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/cc_gigafida
下载链接
链接失效反馈
官方服务:
资源简介:
ccGigafida是一个斯洛文尼亚语的参考语料库,是Gigafida(及其后继版本Gigafida 2)的一个公开子集。Gigafida语料库包含了从1990年到2011年之间发布的各种类型的文本,包括日报、杂志、各种书籍(小说、非小说、教科书)、网页、议会辩论的转录等。数据集的结构是文档级别的,每个实例包含文档ID、标题、作者、发布日期、出版商、类型、分词后的文本、词形还原后的文本、MSD标签和句子ID。
提供机构:
cjvt
原始信息汇总

数据集概述

数据集基本信息

  • 名称: Written corpus ccGigafida 1.0
  • 语言: 斯洛文尼亚语
  • 许可证: CC BY-NC-SA 4.0
  • 多语言性: 单语种
  • 大小分类: 10K<n<100K, 100M<n<1B
  • 标签: gigafida, gigafida2, kres, cckres, reference corpus
  • 任务分类: fill-mask, text-generation
  • 任务ID: masked-language-modeling, language-modeling

数据集摘要

ccGigafida 是一个斯洛文尼亚语的参考语料库,是更大的参考语料库 Gigafida(及其后续 Gigafida 2)的公开可用子样本。Gigafida 语料库是一个广泛的斯洛文尼亚语文本集合,包括日报、杂志、各种书籍(小说、非小说、教科书)、网页、议会辩论的转录等。

支持的任务和排行榜

语言建模。

语言

斯洛文尼亚语。

数据集结构

数据实例

数据在文档级别加载,即一个实例是一个文档。

json { id_doc: F0000123, doc_title: Novi tednik NT&RC, authors: [neznani novinar], publish_date: 1998-03-27, publisher: Novi tednik, genres: [tisk/periodično/časopis], doc_tokenized: [ [ [Po, nekajletnem, počitku, pa, se, vračajo, tudi, kralji, dark, rock, godbe, JESUS, AND, THE, MARY, CHAIN, .], [Brata, Reid, bosta, svojo, najnovejšo, kreacijo, », Cracking, Up, «, objavila, v, ponedeljek, pri, trenutno, najuspešnejši, neodvisni, založbi, Creation, (, vodi, jo, njun, nekdanji, menager, Alan, McGee, ,, zanjo, pa, poleg, Oasis, snema, še, cel, kup, popularnih, brit, -, popovcev, ), ,, tej, pa, bo, kmalu, sledil, tudi, album, », Munki, «, .] ], [ [Kultni, ameriški, tehno, freak, PLASTIKMAN, že, vrsto, let, velja, za, enega, izmed, najbolj, inovativnih, in, produktivnih, ustvarjalcev, sodobne, elektronske, glasbe, .], [Za, založbo, Nova, Mute, je, v, preteklih, nekaj, letih, posnel, cel, kup, izvrstnih, underground, dance, glasbenih, izdelkov, ,, pred, nedavnim, pa, je, ljubitelje, tovrstne, godbe, presenetil, z, ambientalnimi, odisejadami, ,, zbranimi, na, LP-ju, », Refused, «, ,, ki, ga, lahko, od, prejšnjega, ponedeljka, kupite, tudi, v, bolje, založenih, trgovinah, z, nosilci, zvoka, na, sončni, strani, Alp, .] ], [ [STANE, ŠPEGEL] ] ], doc_lemmas: [...], doc_msds: [...], doc_string: [ [ Po nekajletnem počitku pa se vračajo tudi kralji dark rock godbe JESUS AND THE MARY CHAIN. , Brata Reid bosta svojo najnovejšo kreacijo »Cracking Up« objavila v ponedeljek pri trenutno najuspešnejši neodvisni založbi Creation (vodi jo njun nekdanji menager Alan McGee, zanjo pa poleg Oasis snema še cel kup popularnih brit-popovcev), tej pa bo kmalu sledil tudi album »Munki«. ], [ Kultni ameriški tehno freak PLASTIKMAN že vrsto let velja za enega izmed najbolj inovativnih in produktivnih ustvarjalcev sodobne elektronske glasbe. , Za založbo Nova Mute je v preteklih nekaj letih posnel cel kup izvrstnih underground dance glasbenih izdelkov, pred nedavnim pa je ljubitelje tovrstne godbe presenetil z ambientalnimi odisejadami, zbranimi na LP-ju »Refused«, ki ga lahko od prejšnjega ponedeljka kupite tudi v bolje založenih trgovinah z nosilci zvoka na sončni strani Alp. ], [ STANE ŠPEGEL ] ], id_sents: [[F0000123.000005.0, F0000123.000005.1], [F0000123.000013.0, F0000123.000013.1], [F0000123.000020.0]] }

数据字段

  • id_doc: 文档ID(字符串);
  • doc_title: 文档标题(字符串);
  • authors: 文档作者(字符串列表):"neznani novinar"(斯洛文尼亚语)= "unknown/unspecified journalist";
  • publish_date: 发布日期(字符串);
  • publisher: 出版者,例如新闻机构名称(字符串);
  • genres: 文档类型(字符串列表) - 可能的类型:[tisk, tisk/knjižno, tisk/knjižno/leposlovno, tisk/knjižno/strokovno, tisk/periodično, tisk/periodično/časopis, tisk/periodično/revija, tisk/drugo, internet]
  • doc_tokenized: 分词后的文档 - 顶级列表表示段落,下一级列表表示句子,每个句子包含分词;
  • doc_lemmas: 词形还原后的文档 - 结构与 doc_tokenized 相同;
  • doc_msds: 文档的 MSD 标签 - 结构与 doc_tokenized 相同(标签集);
  • doc_string: 与 doc_tokenized 相同,但句子中正确放置了空格;
  • id_sents: 文档中段落内句子的ID。

数据集创建

Gigafida 包含1990年至2011年间发布的文本。这些文本来自印刷源和网络。印刷部分包含小说、非小说和教科书,以及日报和杂志等期刊。来自网络的文本发布在新闻门户、斯洛文尼亚大型公司和重要政府、教育、研究、文化等机构的页面上。

附加信息

数据集管理员

Nataša Logar 等人(请参阅 http://hdl.handle.net/11356/1035 获取完整列表)

许可信息

CC BY-NC-SA 4.0.

引用信息

@misc{ccGigafida, title = {Written corpus {ccGigafida} 1.0}, author = {Logar, Nata{v s}a and Erjavec, Toma{v z} and Krek, Simon and Gr{v c}ar, Miha and Holozan, Peter}, url = {http://hdl.handle.net/11356/1035}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{NonCommercial}-{ShareAlike} 4.0 International ({CC} {BY}-{NC}-{SA} 4.0)}, issn = {2820-4042}, year = {2013} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作