five

djstrong/8tags

收藏
Hugging Face2024-01-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/djstrong/8tags
下载链接
链接失效反馈
官方服务:
资源简介:
8TAGS是一个波兰语的主题分类数据集,包含来自社交媒体帖子的标题。数据集包含约50,000个句子,标注有8个主题标签:电影、历史、食品、医学、机动化、工作、体育和技术。数据集是通过从波兰社交网站wykop.pl的文章标题和简短描述中提取句子自动创建的。数据集中的句子经过清理和分词处理,并且每个句子只标注了一个明确的类别,且长度超过30个字符。

8TAGS is a Polish thematic classification dataset comprising titles from social media posts. It contains approximately 50,000 sentences annotated with 8 thematic labels: film, history, food, medicine, motorization, work, sports, and technology. The dataset was automatically constructed by extracting sentences from article titles and short descriptions published on the Polish social networking platform wykop.pl. All sentences in the dataset have undergone cleaning and tokenization procedures, with each sentence assigned exactly one unambiguous category and a character count exceeding 30.
提供机构:
djstrong
原始信息汇总

8TAGS 数据集概述

数据集摘要

8TAGS 是一个波兰语主题分类数据集,包含来自社交媒体帖子的标题。该数据集包含约 50,000 个句子,标注了 8 个主题标签:电影、历史、食物、医学、汽车、工作、体育和技术。此数据集是通过从波兰社交网络站点 wykop.pl 发布的文章标题和简短描述中提取句子自动创建的。该服务允许用户使用一个或多个标签(类别)标注文章。数据集代表了从 8 个流行类别中选择的文章内容句子。最终语料库包含经过清洗和标记的、明确的句子(仅标记为所选类别之一),且长度超过 30 个字符。

数据实例

示例实例: json { "sentence": "Kierowca był nieco zdziwiony że podróżując sporo ponad 200 km / h zatrzymali go policjanci.", "label": "4" }

数据字段

  • sentence: 句子文本
  • label: 对应于 8 个主题之一的标签标识符

数据集信息

  • 语言: 波兰语
  • 许可: CC BY-NC-SA 4.0
  • 多语言性: 单语种
  • 大小类别: 10K<n<100K
  • 任务类别: 文本分类
  • 任务标识: 主题分类、多类别分类
  • 特征:
    • sentence: 字符串类型
    • label: 类别标签类型,包含以下名称:
      • 0: 电影
      • 1: 历史
      • 2: 食物
      • 3: 医学
      • 4: 汽车
      • 5: 工作
      • 6: 体育
      • 7: 技术
  • 分割:
    • train: 40001 个样本,3765325 字节
    • validation: 5000 个样本,467676 字节
    • test: 4372 个样本,416311 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作