cjvt/ginco
收藏数据集概述
数据集简介
GINCO 1.0 是一个斯洛文尼亚语网络体裁识别语料库,包含 1,002 篇网络文本(共 478,969 个单词),这些文本被手动标注了体裁。该语料库支持自动化体裁识别、体裁分析以及其他网络语料库研究。
数据集结构
数据实例
一个数据实例的示例如下: json { "id": "3776", "url": "http://www.radiocelje.si/novica.php?id=13007&m=11&l=2010", "crawled": "2014", "hard": false, "paragraphs": [ { "text": "V novembru, mesecu prepreu010devanja odvisnosti, bodo u010dlani Lokalne akcijske skupine za prepreu010devanje zasvojenosti izvedli niz strokovnih predavanj za staru0161e osnovnou0161olcev v Celju...", "duplicate": false, "keep": true }, { "text": "Predavanja, ki jih bodo ta mesec organizirali na devetih osnovnih u0161olah v mestni obu010dini Celje, so namenjena staru0161em uu010dencev od u0161estega do devetega razreda. Program predavanj finanu010dno podpira Mestna obu010dina Celje. Osrednja tema predavanj bodo varovalni dejavniki vzgoje, ki lahko pripomorejo k neuporabi drog. Po drogah, dovoljenih in nedovoljenih namreu010d vse pogosteje posegajo u017ee otroci. Na predavanjih se bodo staru0161i seznanili tudi z informacijami o tem, na katere vedenjske in telesne spremembe naj bodo pozorni, kadar sumijo, da je otrok posegel po drogi. u010ceprav je tema aktualna, saj poleg problemov odvisnosti osvetljuje veu0161u010dine uu010dinkovitega staru0161evstva in komuniciranja z otroki v konfliktnih situacijah, se je lani ciklusa predavanj na osmih osnovnih u0161olah udeleu017eilo le 160 staru0161ev. Organizatorji tokrat upajo na bolju0161i odziv. Niz predavanj bodo izvedli strokovnjaki s podrou010dja medicine, psihologije, socialnega dela in kriminologije. (ba)", "duplicate": false, "keep": true } ], "primary_level_1": "News/Reporting", "primary_level_2": "News/Reporting", "primary_level_3": "News/Reporting", "secondary_level_1": "", "secondary_level_2": "", "secondary_level_3": "", "tertiary_level_1": "", "tertiary_level_2": "", "tertiary_level_3": "", "split": "train", "domain": "www.radiocelje.si" }
数据字段
id: 示例的ID;url: 文本来源的确切URL;crawled: 从指定URL获取文本的年份;hard: 是否难以为人分配体裁;paragraphs:text: 段落文本;duplicate: 如果文本是近似重复的,则为true;keep: 如果文本对体裁识别有用,则为true,否则为false;
primary_level_1: 第一体裁类别,最详细的类别集;primary_level_2: 第一体裁类别,将过于不频繁的类别合并为Other的类别集;primary_level_3: 第一体裁类别,紧凑且最有用的类别集;secondary_level_1: 第二体裁类别,最详细的类别集;secondary_level_2: 第二体裁类别,将过于不频繁的类别合并为Other的类别集;secondary_level_3: 第二体裁类别,紧凑且最有用的类别集;tertiary_level_1: 第三体裁类别,最详细的类别集;tertiary_level_2: 第三体裁类别,将过于不频繁的类别合并为Other的类别集;tertiary_level_3: 第三体裁类别,紧凑且最有用的类别集;split: 示例可以属于train、dev或test分割;domain: 文本来源的网站域名。
体裁类别
文本使用24个体裁类别进行标注:
- News/Reporting,
- Announcement,
- Research Article,
- Instruction,
- Recipe,
- Call (如Call for Papers),
- Legal/Regulation,
- Information/Explanation,
- Opinionated News,
- Review,
- Opinion/Argumentation,
- Promotion of a Product,
- Promotion of Services,
- Invitation,
- Promotion,
- Interview,
- Forum,
- Correspondence,
- Script/Drama,
- Prose,
- Lyrical,
- FAQ (Frequently Asked Questions),
- List of Summaries/Excerpts,
- Other.
数据集分割
train: 602 个示例,2250345 字节;validation: 200 个示例,657986 字节;test: 200 个示例,550742 字节。
数据集大小
- 下载大小: 1424443 字节;
- 数据集大小: 3459073 字节。
许可证
CC BY-SA 4.0
语言
斯洛文尼亚语
多语言性
单语种
任务类别
文本分类
大小类别
1K<n<10K



