projecte-aina/tecla

Name: projecte-aina/tecla
Creator: projecte-aina
Published: 2024-09-13 10:28:31
License: 暂无描述

Hugging Face2024-09-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/tecla

下载链接

链接失效反馈

官方服务：

资源简介：

TeCla（文本分类）是一个用于主题多类别文本分类任务的加泰罗尼亚新闻语料库。当前版本（2.0）包含113,376篇文章，这些文章按照由粗粒度和细粒度类别组成的层次结构进行分类。粗粒度类别有4个，每个粗粒度类别下包含一组细粒度类别，总共有53个细粒度类别。数据集由BSC TeMU开发，作为Projecte AINA的一部分，旨在丰富加泰罗尼亚语言理解基准（CLUB）。数据集包含三个JSON文件，分别用于训练、开发和测试，每个示例包含文本、粗粒度标签和细粒度标签三个字段。数据集的创建过程包括从加泰罗尼亚新闻社（ACN）爬取文章，并进行简单的预处理。数据集的注释由编辑人员完成，基于文章的元数据分类。数据集的使用有助于开发加泰罗尼亚语的语言模型，该语言属于低资源语言。

提供机构：

projecte-aina

原始信息汇总

数据集概述

数据集名称

TeCla (Text Classification)

语言

加泰罗尼亚语 (ca-ES)

许可

知识共享署名-非商业性使用-禁止演绎 4.0 国际许可 (CC-BY-NC-ND-4.0)

数据集描述

TeCla 是一个用于主题多类别文本分类任务的加泰罗尼亚语新闻语料库。当前版本（2.0）包含113,376篇文章，这些文章被分类在一个由粗粒度和细粒度类别组成的层次结构中。每个粗粒度类别接受一组细粒度类别，总计53个。

数据集结构

数据实例：包含三个JSON文件，分别对应训练、开发和测试集。
数据字段：每个示例包含以下三个字段：
- text: 文章文本（字符串）
- label1: 粗粒度类别
- label2: 细粒度类别

数据分割

训练集：90,700个示例
开发集：5,669个示例
测试集：17,007个示例

数据创建

源数据：数据来源于加泰罗尼亚新闻社（Agència Catalana de Notícies, ACN）的爬取文章。
注释过程：使用编辑人员对文章进行分类的元数据来创建数据集。

使用数据时的考虑

社会影响：希望此数据集有助于加泰罗尼亚语这种低资源语言的语言模型开发。

5,000+

优质数据集

54 个

任务类型

进入经典数据集