PlanTL-GOB-ES/WikiCAT_en

Name: PlanTL-GOB-ES/WikiCAT_en
Creator: PlanTL-GOB-ES
Published: 2022-11-18 11:50:47
License: 暂无描述

Hugging Face2022-11-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PlanTL-GOB-ES/WikiCAT_en

下载链接

链接失效反馈

官方服务：

资源简介：

--- YAML tags: annotations_creators: - automatically-generated language_creators: - found language: - en license: - cc-by-sa-3.0 multilinguality: - monolingual pretty_name: wikicat_en size_categories: - unknown source_datasets: [] task_categories: - text-classification task_ids: - multi-class-classification --- # WikiCAT_en (Text Classification) English dataset ## Dataset Description - **Paper:** - **Point of Contact:** carlos.rodriguez1@bsc.es **Repository** https://github.com/TeMU-BSC/WikiCAT ### Dataset Summary WikiCAT_en is a English corpus for thematic Text Classification tasks. It is created automatically from Wikipedia and Wikidata sources, and contains 28921 article summaries from the Wikiipedia classified under 19 different categories. This dataset was developed by BSC TeMU as part of the PlanTL project, and intended as an evaluation of LT capabilities to generate useful synthetic corpus. ### Supported Tasks and Leaderboards Text classification, Language Model ### Languages EN - English ## Dataset Structure ### Data Instances Two json files, one for each split. ### Data Fields We used a simple model with the article text and associated labels, without further metadata. #### Example: <pre> {"version": "1.1.0", "data": [ { {'sentence': 'The IEEE Donald G. Fink Prize Paper Award was established in 1979 by the board of directors of the Institute of Electrical and Electronics Engineers (IEEE) in honor of Donald G. Fink. He was a past president of the Institute of Radio Engineers (IRE), and the first general manager and executive director of the IEEE. Recipients of this award received a certificate and an honorarium. The award was presented annually since 1981 and discontinued in 2016.', 'label': 'Engineering' }, . . . ] } </pre> #### Labels 'Health', 'Law', 'Entertainment', 'Religion', 'Business', 'Science', 'Engineering', 'Nature', 'Philosophy', 'Economy', 'Sports', 'Technology', 'Government', 'Mathematics', 'Military', 'Humanities', 'Music', 'Politics', 'History' ### Data Splits * hftrain_en.json: 20237 label-document pairs * hfeval_en.json: 8684 label-document pairs ## Dataset Creation ### Methodology Se eligen páginas de partida “Category:” para representar los temas en cada lengua. Se extrae para cada categoría las páginas principales, así como las subcategorías, y las páginas individuales bajo estas subcategorías de primer nivel. Para cada página, se extrae también el “summary” que proporciona Wikipedia. ### Curation Rationale ### Source Data #### Initial Data Collection and Normalization The source data are Wikipedia page summaries and thematic categories #### Who are the source language producers? ### Annotations #### Annotation process #### Who are the annotators? Automatic annotation ### Personal and Sensitive Information No personal or sensitive information included. ## Considerations for Using the Data ### Social Impact of Dataset [N/A] ### Discussion of Biases [N/A] ### Other Known Limitations [N/A] ## Additional Information ### Dataset Curators Text Mining Unit (TeMU) at the Barcelona Supercomputing Center (bsc-temu@bsc.es). For further information, send an email to (plantl-gob-es@bsc.es). This work was funded by the [Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA)](https://avancedigital.mineco.gob.es/en-us/Paginas/index.aspx) within the framework of the [Plan-TL](https://plantl.mineco.gob.es/Paginas/index.aspx). ### Licensing information This work is licensed under [CC Attribution 4.0 International](https://creativecommons.org/licenses/by/4.0/) License. Copyright by the Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) (2022) ### Contributions [N/A]

YAML 标签： annotations_creators: - 自动生成 language_creators: - 采集自现有文本 language: - 英语 license: - CC-BY-SA-3.0 multilinguality: - 单语言 pretty_name: wikicat_en size_categories: - 未知 source_datasets: [] task_categories: - 文本分类 task_ids: - 多类别分类 # WikiCAT_en（文本分类）英语数据集 ## 数据集说明 - **论文来源：** 无 - **联系人邮箱：** carlos.rodriguez1@bsc.es **代码仓库** https://github.com/TeMU-BSC/WikiCAT ### 数据集概述 WikiCAT_en是一款面向主题文本分类任务的英语语料库。其自动从维基百科（Wikipedia）与维基数据（Wikidata）数据源构建，包含28921篇维基百科文章摘要，覆盖19个不同分类类别。本数据集由巴塞罗那超级计算中心文本挖掘单元（BSC TeMU）作为PlanTL项目的一部分开发，旨在评估语言技术（LT）生成实用合成语料库的能力。 ### 支持任务与排行榜文本分类、语言模型 ### 语言英语（EN） ## 数据集结构 ### 数据实例包含两个JSON文件，分别对应不同拆分集。 ### 数据字段我们采用仅包含文章文本与关联标签的极简模型，未额外添加元数据。 #### 示例： json {"version": "1.1.0", "data": [ { "sentence": "IEEE唐纳德·G·芬克奖论文奖由电气和电子工程师协会（Institute of Electrical and Electronics Engineers, IEEE）董事会于1979年设立，以纪念唐纳德·G·芬克。他曾任无线电工程师协会（Institute of Radio Engineers, IRE）主席，同时也是IEEE的首任总经理与执行董事。该奖项的获奖者可获得证书与酬金。该奖项自1981年起每年颁发，2016年停办。", "label": "工程学" }, ... ] } #### 标签列表： '健康'、'法律'、'娱乐'、'宗教'、'商业'、'科学'、'工程学'、'自然'、'哲学'、'经济学'、'体育'、'技术'、'政府'、'数学'、'军事'、'人文'、'音乐'、'政治'、'历史' ### 数据拆分 * hftrain_en.json：20237条标签-文档对 * hfeval_en.json：8684条标签-文档对 ## 数据集构建 ### 构建方法选取以“Category:”开头的页面作为各语言对应主题的代表条目。为每个分类提取其主页面、子分类，以及这些一级子分类下的独立页面。同时为每个页面提取维基百科提供的“摘要”内容。 ### 数据整理依据无 ## 源数据 ### 初始数据收集与标准化源数据为维基百科页面摘要与主题分类 ### 源语言生成者：无 ## 注释 ### 注释流程：无 ### 注释人员：自动注释 ## 个人与敏感信息本数据集未包含任何个人或敏感信息。 ## 数据使用注意事项 ### 数据集的社会影响：无相关内容 ### 偏差讨论：无相关内容 ### 其他已知局限性：无相关内容 ## 附加信息 ### 数据集整理者巴塞罗那超级计算中心文本挖掘单元（Text Mining Unit, TeMU, BSC），联系邮箱：bsc-temu@bsc.es。如需进一步信息，请发送邮件至plantl-gob-es@bsc.es。本工作由西班牙数字化与人工智能国务秘书处（State Secretariat for Digitalization and Artificial Intelligence, SEDIA）在[Plan-TL项目](https://plantl.mineco.gob.es/Paginas/index.aspx)框架下资助完成。 ### 许可信息本作品采用[CC 署名4.0国际许可协议](https://creativecommons.org/licenses/by/4.0/)进行授权。版权归西班牙数字化与人工智能国务秘书处（SEDIA）所有（2022年） ### 贡献情况：无相关内容

提供机构：

PlanTL-GOB-ES

原始信息汇总

WikiCAT_en (Text Classification) English dataset 概述

数据集描述

语言： 英语 (EN)
许可证： CC-BY-SA-3.0
多语言性： 单语
数据集名称： WikiCAT_en
数据集大小： 未知
任务类别： 文本分类
任务ID： 多类分类

数据集总结

WikiCAT_en 是一个用于主题文本分类任务的英语语料库，由 BSC TeMU 开发，作为 PlanTL 项目的一部分。该数据集包含从维基百科和维基数据源自动生成的 28,921 篇文章摘要，分为 19 个不同的类别。

数据集结构

数据实例

文件： 两个 JSON 文件，分别用于训练和评估。
训练集： hftrain_en.json，包含 20,237 个标签-文档对。
评估集： hfeval_en.json，包含 8,684 个标签-文档对。

数据字段

模型： 简单模型，包含文章文本和相关标签，无额外元数据。
示例： 文章文本及其对应的类别标签。
标签： 包括 Health, Law, Entertainment, Religion, Business, Science, Engineering, Nature, Philosophy, Economy, Sports, Technology, Government, Mathematics, Military, Humanities, Music, Politics, History。

数据集创建

方法论

数据来源： 维基百科页面摘要和主题类别。
数据提取： 从“Category:”页面开始，提取主页面、子类别及第一级子类别下的独立页面，并提取每个页面的“summary”。

注释

注释过程： 自动注释。
注释者： 无人工注释者。

个人信息和敏感信息

信息包含： 不包含个人信息或敏感信息。

使用数据集的考虑

社会影响： 未提供。
偏见讨论： 未提供。
其他已知限制： 未提供。

附加信息

数据集管理员： 巴塞罗那超级计算中心的文本挖掘单元 (TeMU)。
资金支持： 西班牙国家数字化和人工智能秘书处 (SEDIA) 在 Plan-TL 框架内提供。
版权信息： 由西班牙国家数字化和人工智能秘书处 (SEDIA) 拥有，2022 年。
许可证： CC Attribution 4.0 International。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的主题分类数据集对于模型评估至关重要。WikiCAT_en数据集的构建过程体现了自动化数据采集与整合的先进理念。该数据集通过系统化地选取维基百科中代表特定主题的“Category”页面作为起点，进而提取每个类别下的主要页面及其一级子类别，最终收集这些页面下的独立文章。对于每一篇文章，仅提取维基百科提供的摘要部分，确保了数据内容的简洁性与一致性。整个过程完全自动化，无需人工标注，最终生成了包含28,921个文章摘要的语料库，并自动关联了19个预定义的主题标签。

特点

作为面向文本分类任务的英文语料库，WikiCAT_en展现出若干显著特征。其核心特点在于数据来源的权威性与结构的清晰性，所有文本均源自维基百科的权威条目摘要，保证了内容的规范与可靠。数据集涵盖了健康、法律、娱乐、宗教、商业、科学、工程等19个广泛的主题类别，类别分布均衡，为多类分类任务提供了良好的基础。数据格式简洁明了，每条实例仅包含“句子”和“标签”两个字段，便于模型直接读取与处理。此外，数据集已预先划分为训练集与评估集，为研究者提供了即用的基准测试环境。

使用方法

在应用层面，WikiCAT_en数据集主要服务于文本分类与语言模型评估等自然语言处理任务。使用者可通过加载提供的JSON格式文件（hftrain_en.json与hfeval_en.json）直接获取数据。每个文件包含一个字典列表，其中每个字典的‘sentence’键对应文章摘要文本，‘label’键则对应其所属的19个主题类别之一。研究人员可利用训练集部分进行有监督的模型训练，随后在独立的评估集上测试模型的分类性能。该数据集格式与Hugging Face生态系统兼容，能够便捷地通过相关库（如Datasets）进行加载与迭代，从而高效地集成到各类机器学习工作流中。

背景与挑战

背景概述

在自然语言处理领域，文本分类任务对于理解大规模文本数据的主题分布至关重要。WikiCAT_en数据集由巴塞罗那超级计算中心的文本挖掘单元于2022年开发，作为PlanTL项目的一部分，旨在评估语言技术生成合成语料库的能力。该数据集自动从维基百科和维基数据中提取了28921篇英文文章摘要，涵盖健康、法律、娱乐等19个主题类别，为多类文本分类研究提供了标准化的评估基准。其构建过程体现了利用结构化知识源自动创建高质量语料库的前沿探索，对推动主题分类模型的发展具有显著影响。

当前挑战

WikiCAT_en数据集致力于解决多类文本分类中的主题识别挑战，要求模型在19个广泛且互斥的类别中准确区分文本的语义主题，这对模型的泛化能力和语义理解深度提出了较高要求。在构建过程中，数据集面临自动标注的可靠性问题，依赖维基百科的分类体系可能导致类别边界模糊或噪声引入；同时，从非结构化摘要中提取代表性文本并确保类别平衡性存在技术难度，且源数据的更新与动态变化为数据集的持续维护带来挑战。

常用场景

经典使用场景

在自然语言处理领域，文本分类任务常需大规模、高质量标注数据以训练模型。WikiCAT_en数据集凭借其从维基百科自动构建的英文文章摘要，为研究者提供了一个涵盖19个主题类别的标准基准。该数据集广泛应用于多类文本分类模型的训练与评估，尤其在监督学习框架下，其结构化的标签体系支持分类器在跨主题场景下的泛化能力测试，成为验证模型性能的经典工具。

解决学术问题

学术研究中，构建覆盖广泛主题且标注一致的文本分类数据集常面临成本高昂与标注偏差的挑战。WikiCAT_en通过自动化流程从维基百科和维基数据提取摘要与类别，有效解决了数据稀缺与标注一致性问题。其多类别平衡设计有助于探索模型在长尾分布下的表现，推动了文本分类领域在数据高效利用与领域自适应方面的研究进展，为语言技术评估提供了可靠基础。

衍生相关工作

围绕WikiCAT_en数据集，衍生出多项经典研究工作，包括基于预训练语言模型的微调策略探索、少样本学习在文本分类中的应用以及跨语言分类任务的迁移学习。这些工作不仅深化了对多类别分类中特征表示与模型鲁棒性的理解，还促进了如BERT、RoBERTa等先进架构在现实场景中的部署，为后续大规模语料库构建与评估范式提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集