mapama247/wikihow_es

Name: mapama247/wikihow_es
Creator: mapama247
Published: 2023-12-27 09:46:57
License: 暂无描述

Hugging Face2023-12-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mapama247/wikihow_es

下载链接

链接失效反馈

官方服务：

资源简介：

WikiHow-ES数据集是从西班牙语WikiHow网站上检索的文章集合，每个文章都包含关于特定主题的教程，格式通常为“如何做”的问题，后跟详细的逐步解释。该数据集的主要用途是用于西班牙语语言模型的指令调优，但也适用于文本分类、问答、对话和摘要等任务。数据集包含7380个训练样本，涵盖了多个类别，如计算机与电子、健康、爱好等。数据集的创建目的是为了语言模型与最终任务和用户偏好的对齐。

The WikiHow-ES dataset is a collection of articles retrieved from the Spanish-language WikiHow website. Each article contains tutorials on specific topics, typically structured as a "how-to" question followed by detailed step-by-step explanations. The primary intended use of this dataset is instruction tuning for Spanish large language models, while it also supports tasks including text classification, question answering, dialogue, and text summarization. The dataset consists of 7380 training samples spanning multiple categories such as computers & electronics, health, hobbies, and others. The dataset was developed to align large language models with downstream tasks and user preferences.

提供机构：

mapama247

原始信息汇总

WikiHow-ES 数据集概述

数据集摘要

从西班牙 WikiHow 网站于2023年9月获取的文章数据集。每个文章包含关于特定主题的教程，格式为“如何...”的问题，后跟详细的逐步解释。某些情况下，回答包含多种方法。主要用于西班牙大型语言模型的指令调优，但也适用于文本分类、问答、对话和摘要等任务。

语言

西班牙语 (ES)

使用方法

加载完整数据集： python from datasets import load_dataset

all_articles = load_dataset("mapama247/wikihow_es", trust_remote_code=True) print(all_articles.num_rows) # 输出: {train: 7380}

加载特定类别的示例： python from datasets import load_dataset

sports_articles = load_dataset("mapama247/wikihow_es", "deportes") print(sports_articles.num_rows) # 输出: {train: 201}

可用类别及其示例数量：

computadoras-y-electrónica 821 salud 804 pasatiempos 729 cuidado-y-estilo-personal 724 carreras-y-educación 564 en-la-casa-y-el-jardín 496 finanzas-y-negocios 459 comida-y-diversión 454 relaciones 388 mascotas-y-animales 338 filosofía-y-religión 264 arte-y-entretenimiento 254 en-el-trabajo 211 adolescentes 201 deportes 201 vida-familiar 147 viajes 139 automóviles-y-otros-vehículos 100 días-de-fiesta-y-tradiciones 86

支持的任务

instruction-tuning
text-classification
question-answering
conversational
summarization

数据集结构

数据实例

python { category: str, question: str, introduction: str, answers: List[str], short_answers: List[str], url: str, num_answers: int, num_refs: int, expert_author: bool, }

数据字段

category: 示例所属的类别。
label: 类别的数值表示，用于文本分类。
question: 文章标题，总是以“¿Cómo ...”开头。
introduction: 逐步解释之前的引言文本。
answers: 包含每个步骤完整解释的完整回答列表。
short_answers: 仅包含一句话步骤的简短回答列表。
num_answers: 提供的替代回答数量（例如 answers 的长度）。
num_ref: 文章中提供的参考文献数量。
expert_authors: 文章作者是否声称是该主题的专家。
url: 原始文章的URL地址。

数据分割

只有一个分割 (train)，包含总共7,380个示例。

数据集创建

策划理由

该数据集旨在用于语言模型对齐终端任务和用户偏好。

源数据

从 WikiHow 网站获取的带有详细逐步回答的“如何...”问题。

数据收集和规范化

2023年9月可用的所有文章都被提取，未应用过滤器。同时，还提取了一些元数据。

源语言生产者

WikiHow 用户。所有内容均为人工生成。

个人和敏感信息

数据不包含个人或敏感信息。

社会影响

西班牙社区可以从该数据集提供的高质量数据中受益。

偏见

未应用任何后处理步骤来减轻潜在的社会偏见。

附加信息

策展人

Marc Pàmes @ 巴塞罗那超级计算中心。

许可

该数据集根据 Creative Commons CC BY-NC-SA 3.0 许可证授权。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，西班牙语高质量指令数据的稀缺性促使了该数据集的构建。该数据集通过系统性地爬取西班牙语WikiHow网站于2023年9月的全部可用文章而形成，涵盖了从日常生活技巧到专业知识的广泛主题。构建过程中未施加任何过滤，确保了数据的原始性和完整性，同时保留了每篇文章的元数据，如分类、作者专家身份及参考文献数量，为后续的模型训练提供了丰富的结构化信息。

特点

该数据集以其独特的西班牙语指令跟随特性而著称，包含7380条以“如何”开头的问答式教程，每条记录均配有详细的步骤解释和简洁摘要。数据覆盖了从计算机电子到健康、金融等20个分类，体现了主题的多样性和实用性。其结构化字段设计，如完整答案序列与简短答案序列的并存，以及专家作者标识的引入，为指令微调、文本分类和摘要生成等多任务学习提供了高度适配的语料基础。

使用方法

在应用层面，该数据集可通过Hugging Face的datasets库便捷加载，支持整体或按分类调用，例如加载“deportes”分类即可获取201条体育相关指令。研究人员可将其用于西班牙语大语言模型的指令微调，以提升模型遵循复杂步骤的能力；亦可用于多分类任务，利用其明确的类别标签训练文本分类器；其步骤式结构还适合用于生成式任务的训练，如根据问题生成连贯的操作指南或提炼摘要。

背景与挑战

背景概述

在自然语言处理领域，西班牙语资源的稀缺性长期制约着相关模型的发展。为应对这一挑战，巴塞罗那超级计算中心的Marc Pàmes于2023年9月创建了WikiHow-ES数据集。该数据集源自西班牙语WikiHow网站，收录了涵盖健康、科技、教育等20个主题类别的7380篇教程文章。其核心研究问题在于为西班牙语大语言模型提供高质量的指令微调数据，以提升模型在文本分类、问答及摘要生成等多任务场景下的性能表现。该数据集的构建不仅丰富了西班牙语语料库的多样性，更为跨语言自然语言处理研究提供了重要的基础资源。

当前挑战

WikiHow-ES数据集致力于解决西班牙语指令理解与生成任务的挑战，其核心在于如何让模型准确解析开放式“如何操作”类问题，并生成结构清晰、逻辑严谨的步骤化答案。在构建过程中，数据采集面临网页结构异构性带来的解析困难，需从多样化的HTML模板中精准提取问题、引言及步骤内容。同时，数据质量保障存在挑战：部分文章可能包含非专家撰写的非权威信息，且不同主题间的内容深度与表述风格差异显著，这要求构建者设计精细的清洗与验证机制以确保语料的可靠性与一致性。

常用场景

经典使用场景

在西班牙语自然语言处理领域，WikiHow-ES数据集以其结构化的教程文本为特色，为指令微调任务提供了理想素材。该数据集包含数千条以“如何”开头的问答对，每条记录均配有详细的步骤说明和简介，这种格式天然契合生成式模型的训练需求。研究者常利用其清晰的指令-响应结构，对大型语言模型进行西班牙语指令遵循能力的优化，从而提升模型在理解复杂任务描述和生成连贯操作指南方面的表现。

实际应用

在实际部署中，基于该数据集训练的模型可应用于西班牙语智能助手和教育平台，为用户提供涵盖生活技巧、技术指导等领域的即时操作指南。其结构化答案能够驱动知识库系统生成标准化解决方案，在客户服务自动化场景中显著降低人工干预需求。教育机构可借助此类模型开发交互式学习工具，通过步骤分解帮助学生掌握复杂技能，体现了人工智能在知识传播民主化进程中的实用价值。

衍生相关工作

该数据集的发布催生了西班牙语指令微调技术路线的系列研究，如基于多任务学习的文本分类框架和层次化摘要生成模型。相关工作中，研究者常将其与英文WikiHow数据集进行对比分析，探索跨语言知识迁移机制。部分工作进一步扩展了数据应用边界，开发出结合视觉信息的多模态教程生成系统，为西班牙语数字内容创作提供了创新方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集