projecte-aina/tecla
收藏Hugging Face2024-09-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/tecla
下载链接
链接失效反馈官方服务:
资源简介:
TeCla(文本分类)是一个用于主题多类别文本分类任务的加泰罗尼亚新闻语料库。当前版本(2.0)包含113,376篇文章,这些文章按照由粗粒度和细粒度类别组成的层次结构进行分类。粗粒度类别有4个,每个粗粒度类别下包含一组细粒度类别,总共有53个细粒度类别。数据集由BSC TeMU开发,作为Projecte AINA的一部分,旨在丰富加泰罗尼亚语言理解基准(CLUB)。数据集包含三个JSON文件,分别用于训练、开发和测试,每个示例包含文本、粗粒度标签和细粒度标签三个字段。数据集的创建过程包括从加泰罗尼亚新闻社(ACN)爬取文章,并进行简单的预处理。数据集的注释由编辑人员完成,基于文章的元数据分类。数据集的使用有助于开发加泰罗尼亚语的语言模型,该语言属于低资源语言。
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集名称
TeCla (Text Classification)
语言
- 加泰罗尼亚语 (
ca-ES)
许可
- 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可 (CC-BY-NC-ND-4.0)
数据集描述
TeCla 是一个用于主题多类别文本分类任务的加泰罗尼亚语新闻语料库。当前版本(2.0)包含113,376篇文章,这些文章被分类在一个由粗粒度和细粒度类别组成的层次结构中。每个粗粒度类别接受一组细粒度类别,总计53个。
数据集结构
- 数据实例:包含三个JSON文件,分别对应训练、开发和测试集。
- 数据字段:每个示例包含以下三个字段:
text: 文章文本(字符串)label1: 粗粒度类别label2: 细粒度类别
数据分割
- 训练集:90,700个示例
- 开发集:5,669个示例
- 测试集:17,007个示例
数据创建
- 源数据:数据来源于加泰罗尼亚新闻社(Agència Catalana de Notícies, ACN)的爬取文章。
- 注释过程:使用编辑人员对文章进行分类的元数据来创建数据集。
使用数据时的考虑
- 社会影响:希望此数据集有助于加泰罗尼亚语这种低资源语言的语言模型开发。



