mapama247/wikihow_es
收藏WikiHow-ES 数据集概述
数据集摘要
从 西班牙 WikiHow 网站 于2023年9月获取的文章数据集。每个文章包含关于特定主题的教程,格式为“如何...”的问题,后跟详细的逐步解释。某些情况下,回答包含多种方法。主要用于西班牙大型语言模型的指令调优,但也适用于文本分类、问答、对话和摘要等任务。
语言
- 西班牙语 (ES)
使用方法
加载完整数据集: python from datasets import load_dataset
all_articles = load_dataset("mapama247/wikihow_es", trust_remote_code=True) print(all_articles.num_rows) # 输出: {train: 7380}
加载特定类别的示例: python from datasets import load_dataset
sports_articles = load_dataset("mapama247/wikihow_es", "deportes") print(sports_articles.num_rows) # 输出: {train: 201}
可用类别及其示例数量:
computadoras-y-electrónica 821 salud 804 pasatiempos 729 cuidado-y-estilo-personal 724 carreras-y-educación 564 en-la-casa-y-el-jardín 496 finanzas-y-negocios 459 comida-y-diversión 454 relaciones 388 mascotas-y-animales 338 filosofía-y-religión 264 arte-y-entretenimiento 254 en-el-trabajo 211 adolescentes 201 deportes 201 vida-familiar 147 viajes 139 automóviles-y-otros-vehículos 100 días-de-fiesta-y-tradiciones 86
支持的任务
instruction-tuningtext-classificationquestion-answeringconversationalsummarization
数据集结构
数据实例
python { category: str, question: str, introduction: str, answers: List[str], short_answers: List[str], url: str, num_answers: int, num_refs: int, expert_author: bool, }
数据字段
category: 示例所属的类别。label: 类别的数值表示,用于文本分类。question: 文章标题,总是以“¿Cómo ...”开头。introduction: 逐步解释之前的引言文本。answers: 包含每个步骤完整解释的完整回答列表。short_answers: 仅包含一句话步骤的简短回答列表。num_answers: 提供的替代回答数量(例如answers的长度)。num_ref: 文章中提供的参考文献数量。expert_authors: 文章作者是否声称是该主题的专家。url: 原始文章的URL地址。
数据分割
只有一个分割 (train),包含总共7,380个示例。
数据集创建
策划理由
该数据集旨在用于语言模型对齐终端任务和用户偏好。
源数据
从 WikiHow 网站获取的带有详细逐步回答的“如何...”问题。
数据收集和规范化
2023年9月可用的所有文章都被提取,未应用过滤器。同时,还提取了一些元数据。
源语言生产者
WikiHow 用户。所有内容均为人工生成。
个人和敏感信息
数据不包含个人或敏感信息。
社会影响
西班牙社区可以从该数据集提供的高质量数据中受益。
偏见
未应用任何后处理步骤来减轻潜在的社会偏见。
附加信息
策展人
Marc Pàmes @ 巴塞罗那超级计算中心。
许可
该数据集根据 Creative Commons CC BY-NC-SA 3.0 许可证授权。




