projecte-aina/CaWikiTC

Name: projecte-aina/CaWikiTC
Creator: projecte-aina
Published: 2024-05-28 14:30:59
License: 暂无描述

Hugging Face2024-05-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/CaWikiTC

下载链接

链接失效反馈

官方服务：

资源简介：

CaWikiTC（加泰罗尼亚维基百科文本分类）数据集是通过自动抓取加泰罗尼亚维基百科文章摘要及其相关主题类别创建的文本分类数据集。它包含21002个文本（训练集和开发集分别有19952和1050个样本），分为67个互斥的类别。数据集的创建是为了作为任务转移的来源，训练一个蕴含模型，然后用于执行不同的文本分类任务。数据集的结构包括两个JSON文件，每个样本包含文本和标签两个字段。数据集的标签涵盖了67个不同的主题类别，如哲学、历史、地理等。该数据集旨在促进加泰罗尼亚语的低资源语言模型开发。

提供机构：

projecte-aina

原始信息汇总

数据集概述

数据集描述

数据集名称： CaWikiTC（Catalan Wikipedia Text Classification）
数据集概要： CaWikiTC是一个自动创建的文本分类数据集，通过抓取加泰罗尼亚语维基百科文章摘要及其相关主题类别生成。包含21002个文本，分为67个独占类别。训练集包含19952个文本，开发集包含1050个文本。
数据集创建方法： 选择加泰罗尼亚语维基百科文章摘要，从多个子类别中提取，主要涉及专业学科和社会科学领域。原有多类别关联的文本被排除以避免类别重叠。
数据集用途： 用于训练蕴涵模型，进而执行不同的文本分类任务。
许可证： 遵循<a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/">Attribution-ShareAlike 4.0 International</a>。

数据集结构

数据实例

文件格式： 两个JSON文件（训练集和开发集）。
数据字段：
- text： 加泰罗尼亚语维基百科文章摘要（字符串）
- label： 主题类别

数据分割

分割比例： 训练集占95%，开发集占5%。
分割大小：
- train.json： 19952个示例
- dev.json： 1050个示例

使用数据注意事项

社会影响： 希望此数据集有助于加泰罗尼亚语这种低资源语言的语言模型开发。
偏见讨论： [N/A]
其他已知限制： [N/A]

5,000+

优质数据集

54 个

任务类型

进入经典数据集