projecte-aina/WikiCAT_ca

Name: projecte-aina/WikiCAT_ca
Creator: projecte-aina
Published: 2025-09-22 08:45:34
License: 暂无描述

Hugging Face2025-09-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/WikiCAT_ca

下载链接

链接失效反馈

官方服务：

资源简介：

WikiCAT_ca是一个用于加泰罗尼亚语主题文本分类任务的语料库，包含从维基百科和维基数据自动生成的13201篇文章，分为13个不同类别。该数据集由BSC TeMU开发，作为AINA项目的一部分，旨在评估语言技术生成有用合成语料库的能力。数据集结构包括两个JSON文件，分别用于开发和训练集，每个文件包含文章文本和对应的标签。数据集的使用考虑了社会影响和潜在的偏见，但没有采取减少偏见影响的步骤。

提供机构：

projecte-aina

原始信息汇总

WikiCAT_ca: Catalan Text Classification dataset

数据集描述

数据集名称: WikiCAT_ca
数据集类型: 单语种文本分类数据集
语言: 加泰罗尼亚语 (ca-ES)
许可证: CC BY-SA 4.0
任务类型: 文本分类
任务ID: 多类别分类

数据集摘要

WikiCAT_ca 是一个用于主题文本分类任务的加泰罗尼亚语语料库。它从维基百科和维基数据源自动生成，包含来自维基百科的13201篇文章，分为13个不同类别。

支持的任务和排行榜

文本分类、语言模型

数据集结构

数据实例

包含两个json文件，分别用于不同的数据分割。

数据字段

使用了一个简单的模型，包含文章文本和相关标签，没有进一步的元数据。

示例:

json { "version": "1.1.0", "data": [ { "sentence": "Celsius és conegut com linventor de lescala centesimal del termòmetre...", "label": "Ciència" } ] }