projecte-aina/WikiCAT_ca
收藏Hugging Face2025-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/WikiCAT_ca
下载链接
链接失效反馈官方服务:
资源简介:
WikiCAT_ca是一个用于加泰罗尼亚语主题文本分类任务的语料库,包含从维基百科和维基数据自动生成的13201篇文章,分为13个不同类别。该数据集由BSC TeMU开发,作为AINA项目的一部分,旨在评估语言技术生成有用合成语料库的能力。数据集结构包括两个JSON文件,分别用于开发和训练集,每个文件包含文章文本和对应的标签。数据集的使用考虑了社会影响和潜在的偏见,但没有采取减少偏见影响的步骤。
提供机构:
projecte-aina
原始信息汇总
WikiCAT_ca: Catalan Text Classification dataset
数据集描述
- 数据集名称: WikiCAT_ca
- 数据集类型: 单语种文本分类数据集
- 语言: 加泰罗尼亚语 (ca-ES)
- 许可证: CC BY-SA 4.0
- 任务类型: 文本分类
- 任务ID: 多类别分类
数据集摘要
WikiCAT_ca 是一个用于主题文本分类任务的加泰罗尼亚语语料库。它从维基百科和维基数据源自动生成,包含来自维基百科的13201篇文章,分为13个不同类别。
支持的任务和排行榜
文本分类、语言模型
数据集结构
数据实例
包含两个json文件,分别用于不同的数据分割。
数据字段
使用了一个简单的模型,包含文章文本和相关标签,没有进一步的元数据。
示例:
json { "version": "1.1.0", "data": [ { "sentence": "Celsius és conegut com linventor de lescala centesimal del termòmetre...", "label": "Ciència" } ] }
标签
Ciència_i_Tecnologia, Dret, Economia, Enginyeria, Entreteniment, Esport, Filosofia, Història, Humanitats, Matemàtiques, Música, Política, Religió
数据分割
- dev_ca.json: 2484个标签-文档对
- train_ca.json: 9907个标签-文档对
数据集创建
方法论
选择“类别”起始页面来代表每种语言中的主题。对于每个类别,提取主页面、子类别页面以及第一级下的单个页面。对于每个页面,还提取了维基百科提供的“摘要”作为代表性文本。
注释
注释过程
自动注释
使用数据的注意事项
数据集的社会影响
希望这个语料库有助于加泰罗尼亚语这种低资源语言的语言模型的发展。
偏见讨论
意识到这些数据可能包含偏见,但没有采取任何步骤来减少其影响。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



