five

projecte-aina/tecla

收藏
Hugging Face2024-09-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/tecla
下载链接
链接失效反馈
官方服务:
资源简介:
TeCla(文本分类)是一个用于主题多类别文本分类任务的加泰罗尼亚新闻语料库。当前版本(2.0)包含113,376篇文章,这些文章按照由粗粒度和细粒度类别组成的层次结构进行分类。粗粒度类别有4个,每个粗粒度类别下包含一组细粒度类别,总共有53个细粒度类别。数据集由BSC TeMU开发,作为Projecte AINA的一部分,旨在丰富加泰罗尼亚语言理解基准(CLUB)。数据集包含三个JSON文件,分别用于训练、开发和测试,每个示例包含文本、粗粒度标签和细粒度标签三个字段。数据集的创建过程包括从加泰罗尼亚新闻社(ACN)爬取文章,并进行简单的预处理。数据集的注释由编辑人员完成,基于文章的元数据分类。数据集的使用有助于开发加泰罗尼亚语的语言模型,该语言属于低资源语言。
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集名称

TeCla (Text Classification)

语言

  • 加泰罗尼亚语 (ca-ES)

许可

  • 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可 (CC-BY-NC-ND-4.0)

数据集描述

TeCla 是一个用于主题多类别文本分类任务的加泰罗尼亚语新闻语料库。当前版本(2.0)包含113,376篇文章,这些文章被分类在一个由粗粒度和细粒度类别组成的层次结构中。每个粗粒度类别接受一组细粒度类别,总计53个。

数据集结构

  • 数据实例:包含三个JSON文件,分别对应训练、开发和测试集。
  • 数据字段:每个示例包含以下三个字段:
    • text: 文章文本(字符串)
    • label1: 粗粒度类别
    • label2: 细粒度类别

数据分割

  • 训练集:90,700个示例
  • 开发集:5,669个示例
  • 测试集:17,007个示例

数据创建

  • 源数据:数据来源于加泰罗尼亚新闻社(Agència Catalana de Notícies, ACN)的爬取文章。
  • 注释过程:使用编辑人员对文章进行分类的元数据来创建数据集。

使用数据时的考虑

  • 社会影响:希望此数据集有助于加泰罗尼亚语这种低资源语言的语言模型开发。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作