five

PlanTL-GOB-ES/WikiCAT_esv2

收藏
Hugging Face2023-07-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PlanTL-GOB-ES/WikiCAT_esv2
下载链接
链接失效反馈
官方服务:
资源简介:
WikiCAT_es是一个西班牙语文本分类语料库,自动从Wikipedia和Wikidata生成,包含8401篇文章,分为12个不同类别。该数据集由BSC TeMU开发,作为PlanTL项目的一部分,旨在评估语言技术生成有用合成语料库的能力。数据集包含两个JSON文件,分别用于训练和评估,每个文件包含文章文本和对应的标签。数据集的任务包括文本分类和语言模型,语言为西班牙语。

WikiCAT_es is a Spanish text classification corpus automatically generated from Wikipedia and Wikidata, containing 8,401 articles divided into 12 distinct categories. Developed by BSC TeMU as part of the PlanTL Project, this dataset aims to evaluate the ability of language technologies to generate useful synthetic corpora. It includes two JSON files for training and evaluation splits respectively, each containing article texts and their corresponding classification labels. The tasks covered by this dataset include text classification and language modeling, and the language used is Spanish.
提供机构:
PlanTL-GOB-ES
原始信息汇总

WikiCAT_es: Spanish Text Classification dataset

Dataset Description

  • Point of Contact: carlos.rodriguez1@bsc.es

Dataset Summary

WikiCAT_es is a Spanish corpus for thematic Text Classification tasks. It contains 8401 articles from Wikipedia classified under 12 different categories. Developed by BSC TeMU as part of the PlanTL project.

Supported Tasks and Leaderboards

  • Text classification
  • Language Model

Languages

  • ES: Spanish

Dataset Structure

Data Instances

  • Two json files:
    • hfeval_esv5.json: 1681 label-document pairs
    • hftrain_esv5.json: 6716 label-document pairs

Data Fields

  • Simple model with article text and associated labels.

Example:

{sentence: La economía de Reunión se ha basado tradicionalmente en la agricultura. La caña de azúcar ha sido el cultivo principal durante más de un siglo, y en algunos años representa el 85% de las exportaciones. El gobierno ha estado impulsando el desarrollo de una industria turística para aliviar el alto desempleo, que representa más del 40% de la fuerza laboral.(...) El PIB total de la isla fue de 18.800 millones de dólares EE.UU. en 2007., label: Economía}

Labels

  • Religión, Entretenimiento, Música, Ciencia_y_Tecnología, Política, Economía, Matemáticas, Humanidades, Deporte, Derecho, Historia, Filosofía

Dataset Creation

Methodology

  • Pages of "Categoría" represent themes. Extracted pages associated with the first level of the hierarchy, using the "summary" as representative text.

Source Data

  • Thematic categories in different Wikipedias.

Annotations

  • Automatic annotation.

Considerations for Using the Data

Social Impact of Dataset

  • Contributes to the development of language models in Spanish.

Discussion of Biases

  • Aware of potential biases; no steps taken to reduce their impact.
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,构建高质量的主题分类数据集对于提升西班牙语文本理解能力至关重要。WikiCAT_esv2数据集通过自动化流程从维基百科和维基数据中提取资源,以维基百科的“分类”页面作为主题依据,针对每个主题提取其关联的首层级页面,并采用页面的摘要部分作为代表性文本。这一方法确保了数据来源的结构化与主题一致性,最终形成了包含8401篇文章的语料库,涵盖12个明确分类的西班牙语文本集合。
特点
该数据集在西班牙语文本分类任务中展现出显著特点,其语料均源自维基百科平台,保证了内容的广泛性与权威性。数据集包含12个精细划分的主题类别,如宗教、娱乐、音乐、科学与技术等,覆盖了人文与社会科学的多维领域。数据实例以简洁的JSON格式呈现,仅包含文章文本与对应标签,结构清晰且易于处理。然而,需注意数据可能隐含源平台的固有偏见,未经过滤或修正,这为后续研究提供了探讨空间。
使用方法
对于研究人员而言,WikiCAT_esv2数据集适用于文本分类与语言模型评估任务。数据集已预先分割为训练集与评估集,分别包含6716和1681个标签-文档对,用户可直接加载JSON文件进行模型训练与性能测试。在使用过程中,建议结合西班牙语语言特性进行预处理,并注意数据可能存在的类别分布偏差。该数据集以CC Attribution 4.0国际许可协议发布,允许自由使用与共享,为西班牙语自然语言处理研究提供了宝贵的基准资源。
背景与挑战
背景概述
在自然语言处理领域,西班牙语文本分类资源的相对匮乏长期制约着相关模型的发展与评估。为应对这一挑战,巴塞罗那超级计算中心的文本挖掘单元于2022年推出了WikiCAT_esv2数据集,作为PlanTL项目的重要组成部分。该数据集依托维基百科与维基数据的丰富语料,通过自动化流程构建,涵盖了从宗教、哲学到科学技术等十二个主题类别,共计八千余篇西班牙语文章。其核心研究目标在于为西班牙语语言模型提供高质量的评估基准,并探索利用合成语料提升语言技术能力的有效路径,对推动西班牙语自然语言处理研究的标准化与深化具有显著意义。
当前挑战
WikiCAT_esv2数据集致力于解决西班牙语文本多主题自动分类的挑战,其首要难点在于如何确保自动化标注过程中类别划分的准确性与一致性,避免因维基百科分类体系的复杂性而产生标签噪声。在构建过程中,挑战主要源于源数据的异构性与规模控制:需从维基百科庞大的类别层级中精准提取代表性文章,并平衡各类别的样本分布,以构建具有统计显著性的训练与评估分割。此外,数据集不可避免地继承了源数据中的社会与文化偏见,如何在保持语料自然性的同时识别并缓解这些偏差,亦是后续应用面临的重要课题。
常用场景
经典使用场景
在西班牙语自然语言处理领域,WikiCAT_esv2数据集为文本分类任务提供了标准化的评估基准。该数据集从维基百科自动构建,涵盖12个主题类别,如经济、政治、科学与技术等,其文本源自维基百科摘要,确保了内容的丰富性和权威性。研究者通常利用该数据集训练和验证分类模型,评估模型在西班牙语多类别分类任务上的性能,特别是在资源相对有限的西班牙语NLP研究中,它成为了一个关键的实验平台。
解决学术问题
该数据集主要解决了西班牙语文本分类研究中数据稀缺和标注成本高昂的学术难题。通过自动从维基百科和维基数据提取并标注,它提供了大规模、高质量的主题分类语料,支持了多类别分类任务的模型开发与评估。其意义在于推动了西班牙语自然语言处理技术的发展,为语言模型在低资源语言中的性能提升提供了实证基础,并促进了跨语言NLP研究的公平性。
衍生相关工作
基于WikiCAT_esv2数据集,衍生了一系列经典研究工作,包括西班牙语预训练语言模型的微调实验,如BERT和RoBERTa的变体在分类任务上的性能评估。这些工作探索了跨语言迁移学习的效果,推动了多语言NLP模型的优化。同时,该数据集也激发了关于自动标注方法和数据偏差分析的学术讨论,为低资源语言处理提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作