djstrong/8tags
收藏Hugging Face2024-01-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/djstrong/8tags
下载链接
链接失效反馈官方服务:
资源简介:
8TAGS是一个波兰语的主题分类数据集,包含来自社交媒体帖子的标题。数据集包含约50,000个句子,标注有8个主题标签:电影、历史、食品、医学、机动化、工作、体育和技术。数据集是通过从波兰社交网站wykop.pl的文章标题和简短描述中提取句子自动创建的。数据集中的句子经过清理和分词处理,并且每个句子只标注了一个明确的类别,且长度超过30个字符。
8TAGS is a Polish thematic classification dataset comprising titles from social media posts. It contains approximately 50,000 sentences annotated with 8 thematic labels: film, history, food, medicine, motorization, work, sports, and technology. The dataset was automatically constructed by extracting sentences from article titles and short descriptions published on the Polish social networking platform wykop.pl. All sentences in the dataset have undergone cleaning and tokenization procedures, with each sentence assigned exactly one unambiguous category and a character count exceeding 30.
提供机构:
djstrong
原始信息汇总
8TAGS 数据集概述
数据集摘要
8TAGS 是一个波兰语主题分类数据集,包含来自社交媒体帖子的标题。该数据集包含约 50,000 个句子,标注了 8 个主题标签:电影、历史、食物、医学、汽车、工作、体育和技术。此数据集是通过从波兰社交网络站点 wykop.pl 发布的文章标题和简短描述中提取句子自动创建的。该服务允许用户使用一个或多个标签(类别)标注文章。数据集代表了从 8 个流行类别中选择的文章内容句子。最终语料库包含经过清洗和标记的、明确的句子(仅标记为所选类别之一),且长度超过 30 个字符。
数据实例
示例实例: json { "sentence": "Kierowca był nieco zdziwiony że podróżując sporo ponad 200 km / h zatrzymali go policjanci.", "label": "4" }
数据字段
- sentence: 句子文本
- label: 对应于 8 个主题之一的标签标识符
数据集信息
- 语言: 波兰语
- 许可: CC BY-NC-SA 4.0
- 多语言性: 单语种
- 大小类别: 10K<n<100K
- 任务类别: 文本分类
- 任务标识: 主题分类、多类别分类
- 特征:
- sentence: 字符串类型
- label: 类别标签类型,包含以下名称:
- 0: 电影
- 1: 历史
- 2: 食物
- 3: 医学
- 4: 汽车
- 5: 工作
- 6: 体育
- 7: 技术
- 分割:
- train: 40001 个样本,3765325 字节
- validation: 5000 个样本,467676 字节
- test: 4372 个样本,416311 字节



