five

cjvt/ginco

收藏
Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/ginco
下载链接
链接失效反馈
官方服务:
资源简介:
斯洛文尼亚网页体裁识别语料库GINCO 1.0包含1002个网页文本(478,969个单词),手动标注了体裁信息。该语料库可用于自动化体裁识别和体裁分析以及其他网页语料库研究。数据集分为602个训练文本、200个验证文本和200个测试文本。每个文本最多标注了三个体裁类别,主要标签是最常见的体裁,次要和第三标签表示其他体裁。数据集还提供了文本的元数据(如URL、域名、年份)和段落的元数据(如近重复段落的标识和其对体裁识别的有用性)。此外,数据集提供了三个层次的体裁标签集,建议使用最紧凑的12个标签集。

The Slovenian web genre identification corpus GINCO 1.0 consists of 1002 web texts (totaling 478,969 words) with manually annotated genre information. This corpus is applicable to automated genre identification, genre analysis, and other web corpus-related research. The dataset is split into 602 training texts, 200 validation texts, and 200 test texts. Each text is annotated with up to three genre categories, where the primary label corresponds to the most common genre, while secondary and tertiary labels represent other applicable genres. The dataset also provides text-level metadata (e.g., URL, domain name, publication year) and paragraph-level metadata (e.g., identifiers for near-duplicate paragraphs and their utility for genre identification). Furthermore, the dataset offers three hierarchical genre tag sets, with the most compact 12-tag set being recommended for use.
提供机构:
cjvt
原始信息汇总

数据集概述

数据集简介

GINCO 1.0 是一个斯洛文尼亚语网络体裁识别语料库,包含 1,002 篇网络文本(共 478,969 个单词),这些文本被手动标注了体裁。该语料库支持自动化体裁识别、体裁分析以及其他网络语料库研究。

数据集结构

数据实例

一个数据实例的示例如下: json { "id": "3776", "url": "http://www.radiocelje.si/novica.php?id=13007&m=11&l=2010", "crawled": "2014", "hard": false, "paragraphs": [ { "text": "V novembru, mesecu prepreu010devanja odvisnosti, bodo u010dlani Lokalne akcijske skupine za prepreu010devanje zasvojenosti izvedli niz strokovnih predavanj za staru0161e osnovnou0161olcev v Celju...", "duplicate": false, "keep": true }, { "text": "Predavanja, ki jih bodo ta mesec organizirali na devetih osnovnih u0161olah v mestni obu010dini Celje, so namenjena staru0161em uu010dencev od u0161estega do devetega razreda. Program predavanj finanu010dno podpira Mestna obu010dina Celje. Osrednja tema predavanj bodo varovalni dejavniki vzgoje, ki lahko pripomorejo k neuporabi drog. Po drogah, dovoljenih in nedovoljenih namreu010d vse pogosteje posegajo u017ee otroci. Na predavanjih se bodo staru0161i seznanili tudi z informacijami o tem, na katere vedenjske in telesne spremembe naj bodo pozorni, kadar sumijo, da je otrok posegel po drogi. u010ceprav je tema aktualna, saj poleg problemov odvisnosti osvetljuje veu0161u010dine uu010dinkovitega staru0161evstva in komuniciranja z otroki v konfliktnih situacijah, se je lani ciklusa predavanj na osmih osnovnih u0161olah udeleu017eilo le 160 staru0161ev. Organizatorji tokrat upajo na bolju0161i odziv. Niz predavanj bodo izvedli strokovnjaki s podrou010dja medicine, psihologije, socialnega dela in kriminologije. (ba)", "duplicate": false, "keep": true } ], "primary_level_1": "News/Reporting", "primary_level_2": "News/Reporting", "primary_level_3": "News/Reporting", "secondary_level_1": "", "secondary_level_2": "", "secondary_level_3": "", "tertiary_level_1": "", "tertiary_level_2": "", "tertiary_level_3": "", "split": "train", "domain": "www.radiocelje.si" }

数据字段

  • id: 示例的ID;
  • url: 文本来源的确切URL;
  • crawled: 从指定URL获取文本的年份;
  • hard: 是否难以为人分配体裁;
  • paragraphs:
    • text: 段落文本;
    • duplicate: 如果文本是近似重复的,则为true;
    • keep: 如果文本对体裁识别有用,则为true,否则为false;
  • primary_level_1: 第一体裁类别,最详细的类别集;
  • primary_level_2: 第一体裁类别,将过于不频繁的类别合并为Other的类别集;
  • primary_level_3: 第一体裁类别,紧凑且最有用的类别集;
  • secondary_level_1: 第二体裁类别,最详细的类别集;
  • secondary_level_2: 第二体裁类别,将过于不频繁的类别合并为Other的类别集;
  • secondary_level_3: 第二体裁类别,紧凑且最有用的类别集;
  • tertiary_level_1: 第三体裁类别,最详细的类别集;
  • tertiary_level_2: 第三体裁类别,将过于不频繁的类别合并为Other的类别集;
  • tertiary_level_3: 第三体裁类别,紧凑且最有用的类别集;
  • split: 示例可以属于train、dev或test分割;
  • domain: 文本来源的网站域名。

体裁类别

文本使用24个体裁类别进行标注:

  • News/Reporting,
  • Announcement,
  • Research Article,
  • Instruction,
  • Recipe,
  • Call (如Call for Papers),
  • Legal/Regulation,
  • Information/Explanation,
  • Opinionated News,
  • Review,
  • Opinion/Argumentation,
  • Promotion of a Product,
  • Promotion of Services,
  • Invitation,
  • Promotion,
  • Interview,
  • Forum,
  • Correspondence,
  • Script/Drama,
  • Prose,
  • Lyrical,
  • FAQ (Frequently Asked Questions),
  • List of Summaries/Excerpts,
  • Other.

数据集分割

  • train: 602 个示例,2250345 字节;
  • validation: 200 个示例,657986 字节;
  • test: 200 个示例,550742 字节。

数据集大小

  • 下载大小: 1424443 字节;
  • 数据集大小: 3459073 字节。

许可证

CC BY-SA 4.0

语言

斯洛文尼亚语

多语言性

单语种

任务类别

文本分类

大小类别

1K<n<10K

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作