sabilmakbar/sea_wiki

Name: sabilmakbar/sea_wiki
Creator: sabilmakbar
Published: 2023-11-12 16:10:53
License: 暂无描述

Hugging Face2023-11-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sabilmakbar/sea_wiki

下载链接

链接失效反馈

官方服务：

资源简介：

SEA Wikipedia数据仓库是一个多语言数据集，主要来源于Wikipedia，涵盖了东南亚地区的多种语言和方言，包括但不限于印尼语、马来语、泰语、越南语等。数据集支持文本生成和掩码语言建模任务，适用于自然语言处理研究。数据集提供了多种配置，用户可以根据需要选择不同的语言或国家数据进行加载。

The SEA Wikipedia Repository is a multilingual dataset primarily sourced from Wikipedia, covering a wide range of languages and dialects across Southeast Asia, including but not limited to Indonesian, Malay, Thai, Vietnamese and others. It supports text generation and masked language modeling tasks, making it suitable for natural language processing research. The dataset provides multiple configurations, allowing users to load data for specific languages or regions according to their needs.

提供机构：

sabilmakbar

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Wikipedia Archive for SEA Languages
标签: Wikipedia, Southeast Asia (SEA), Dialect, Banyumasan Dialect of Javanese (Ngapak), SEA-related Languages, SEA Local Languages
许可证: cc-by-sa-4.0
多语言性: 多语言
源数据集: Wikipedia
任务类别: 文本生成, 填充掩码
任务ID: 语言建模, 掩码语言建模

数据集配置

配置名称: seawiki_all

特征:
- url: 字符串
- title: 字符串
- text: 字符串
分割:
- ace: 13003个样本, 4952102字节
- ban: 20987个样本, 18198909字节
- bcl: 15743个样本, 20258642字节
- bjn: 10519个样本, 6792259字节
- bug: 15880个样本, 3298561字节
- cbk_zam: 3285个样本, 2033238字节
- ceb: 6302896个样本, 4572804910字节
- gor: 15359个样本, 6239133字节
- id: 665622个样本, 1118834498字节
- ilo: 15371个样本, 16719139字节
- jv: 73380个样本, 72101470字节
- km: 11994个样本, 103146669字节
- lo: 5014个样本, 15240262字节
- mad: 1192个样本, 1612542字节
- map_bms: 13580个样本, 5221506字节
- min: 227143个样本, 116824020字节
- mnw: 3296个样本, 47321734字节
- ms: 368628个样本, 419662356字节
- my: 109310个样本, 313370839字节
- nia: 1714个样本, 2153274字节
- pag: 2665个样本, 1370162字节
- pam: 9006个样本, 8218370字节
- shn: 13945个样本, 33754296字节
- su: 61555个样本, 47516268字节
- ta: 160651个样本, 809156746字节
- tet: 1468个样本, 1454499字节
- th: 159719个样本, 1012930269字节
- tl: 45341个样本, 85356818字节
- vi: 1288680个样本, 1603057633字节
- war: 1266394个样本, 454304567字节
下载大小: 1829748651字节
数据集大小: 10923905691字节

配置名称: seawiki_dedup_all

特征:
- url: 字符串
- title: 字符串
- text: 字符串
分割:
- ace: 12979个样本, 4944916字节
- ban: 20611个样本, 18025267字节
- bcl: 14079个样本, 19977232字节
- bjn: 10503个样本, 6786207字节
- bug: 9969个样本, 2182435字节
- cbk_zam: 2242个样本, 1579651字节
- ceb: 5815254个样本, 4346511153字节
- gor: 15290个样本, 6217480字节
- id: 662443个样本, 1117891512字节
- ilo: 15369个样本, 16719001字节
- jv: 73080个样本, 71997517字节
- km: 11466个样本, 102698901字节
- lo: 4897个样本, 14908444字节
- mad: 1192个样本, 1612542字节
- map_bms: 11839个样本, 5067489字节
- min: 225972个样本, 116721269字节
- mnw: 3271个样本, 47243333字节
- ms: 348045个样本, 414783365字节
- my: 108819个样本, 312990457字节
- nia: 1714个样本, 2153274字节
- pag: 1108个样本, 764869字节
- pam: 8932个样本, 8205723字节
- shn: 13662个样本, 33616591字节
- su: 61529个样本, 47512744字节
- ta: 160580个样本, 809061339字节
- tet: 1464个样本, 1452151字节
- th: 159666个样本, 1012868861字节
- tl: 45121个样本, 85286023字节
- vi: 1287912个样本, 1602830022字节
- war: 1266204个样本, 454266479字节
下载大小: 1811459996字节
数据集大小: 10686876247字节

配置名称: seawiki_with_countries_all

特征:
- url: 字符串
- title: 字符串
- text: 字符串
分割:
- brn_ms: 368628个样本, 419662356字节
- idn_ace: 13003个样本, 4952102字节
- idn_ban: 20987个样本, 18198909字节
- idn_bjn: 10519个样本, 6792259字节
- idn_bug: 15880个样本, 3298561字节
- idn_gor: 15359个样本, 6239133字节
- idn_id: 665622个样本, 1118834498字节
- idn_jv: 73380个样本, 72101470字节
- idn_mad: 1192个样本, 1612542字节
- idn_map_bms: 13580个样本, 5221506字节
- idn_min: 227143个样本, 116824020字节
- idn_ms: 368628个样本, 419662356字节
- idn_nia: 1714个样本, 2153274字节
- idn_su: 61555个样本, 47516268字节
- idn_tet: 1468个样本, 1454499字节
- khm_km: 11994个样本, 103146669字节
- lao_lo: 5014个样本, 15240262字节
- mmr_my: 109310个样本, 313370839字节
- mmr_shn: 13945个样本, 33754296字节
- mmr_mnw: 3296个样本, 47321734字节
- mys_ms: 368628个样本, 419662356字节
- mys_ta: 160651个样本, 809156746字节
- phl_war: 1266394个样本, 454304567字节
- phl_tl: 45341个样本, 85356818字节
- phl_ilo: 15371个样本, 16719139字节
- phl_bcl: 15743个样本, 20258642字节
- phl_pam: 9006个样本, 8218370字节
- phl_cbk_zam: 3285个样本, 2033238字节
- phl_pag: 2665个样本, 1370162字节
- phl_ceb: 6302896个样本, 4572804910字节
- sgp_ms: 368628个样本, 419662356字节
- sgp_ta: 160651个样本, 809156746字节
- tha_th: 159719个样本, 1012930269字节
- tha_mnw: 3296个样本, 47321734字节
- tha_shn: 13945个样本, 33754296字节
- tls_tet: 1468个样本, 1454499字节
- vnm_vi: 1288680个样本, 1603057633字节
下载大小: 1829748651字节
数据集大小: 13074580034字节

配置名称: seawiki_with_countries_dedup_all

特征:
- url: 字符串
- title: 字符串
- text: 字符串
分割:
- brn_ms: 348045个样本, 414783365字节
- idn_ace: 12979个样本, 4944916字节
- idn_ban: 20611个样本, 18025267字节
- idn_bjn: 10503个样本, 6786207字节
- idn_bug: 9969个样本, 2182435字节
- idn_gor: 15290个样本, 6217480字节
- idn_id: 662443个样本, 1117891512字节
- idn_jv: 73080个样本, 71997517字节
- idn_mad: 1192个样本, 1612542字节
- idn_map_bms: 11839个样本, 5067489字节
- idn_min: 225972个样本, 116721269字节
- idn_ms: 348045个样本, 414783365字节
- idn_nia: 1714个样本, 2153274字节
- idn_su: 61529个样本, 47512744字节
- idn_tet: 1464个样本, 1452151字节
- khm_km: 11466个样本, 102698901字节
- lao_lo: 4897个样本, 14908444字节
- mmr_my: 108819个样本, 312990457字节
- mmr_shn: 13662个样本, 33616591字节
- mmr_mnw: 3271个样本, 47243333字节
- mys_ms: 348045个样本, 414783365字节
- mys_ta: 160580个样本, 809061339字节
- phl_war: 1266204个样本, 454266479字节
- phl_tl: 45121个样本, 85286023字节
- phl_ilo: 15369个样本, 16719001字节
- phl_bcl: 14079个样本, 19977232字节
- phl_pam: 8932个样本, 8205723字节
- phl_cbk_zam: 2242个样本, 1579651字节
- phl_pag: 1108个样本, 764869字节
- phl_ceb: 5815254个样本, 4346511153字节
- sgp_ms: 348045个样本, 414783365字节
- sgp_ta: 16058

搜集汇总

数据集介绍

构建方式

在东南亚语言资源稀缺的背景下，SEA Wikipedia数据集通过系统化采集维基百科多语言条目构建而成。该数据集源自HuggingFace平台的维基百科原始数据，并依据可复现脚本进行精细化处理，涵盖包括亚齐语、爪哇语、他加禄语等在内的三十余种东南亚本土语言及方言。数据遵循知识共享署名-相同方式共享4.0协议，在保留原始授权框架的基础上，通过去重及按国家分类的配置版本，增强了数据的纯净度与地域指向性，为低资源语言研究提供了结构化的文本语料。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，支持多种配置选择。例如，使用`seawiki_all`可获取原始多语言集合，而`seawiki_with_countries_dedup_all`则提供按国家分组且去重后的版本。加载时可通过指定语言代码（如`lang='id'`）或国家参数（如`country='idn'`）灵活提取子集，适用于预训练语言模型、掩码语言建模及文本生成等自然语言处理任务。数据以结构化字段（URL、标题、正文）呈现，便于直接整合至下游分析流程。

背景与挑战

背景概述

在自然语言处理领域，东南亚地区语言的数字资源长期处于匮乏状态，制约了相关语言模型的研发与应用。sabilmakbar/sea_wiki数据集应运而生，由研究团队基于维基百科开源数据构建，旨在汇集东南亚地区多种语言及方言的文本语料。该数据集涵盖了包括印尼语、泰语、越南语、他加禄语等主流语言，以及亚齐语、巴厘语、米南加保语等地方语言与方言，共计超过三十种语言变体。其核心研究问题聚焦于为低资源语言提供大规模、高质量的文本数据，以支持跨语言建模、机器翻译及语言保存等任务，对推动东南亚语言的信息化进程具有深远影响。

当前挑战

该数据集致力于解决东南亚低资源语言在自然语言处理任务中数据稀缺的根本挑战，尤其体现在语言建模与掩码语言建模等任务上。构建过程中的主要困难包括：首先，多种语言的数据量分布极不均衡，如宿务语条目达数百万，而尼亚斯语仅千余条，导致模型训练易受主导语言影响；其次，部分语言缺乏标准化书写规范，文本质量参差不齐，需进行繁琐的清洗与去重工作；此外，维基百科条目结构复杂，提取与解析多语言文本时需处理多样化的编码与格式问题，确保数据的完整性与一致性。

常用场景

经典使用场景

在东南亚语言资源稀缺的背景下，该数据集作为多语言文本语料库，其经典使用场景集中于预训练大规模语言模型。研究者利用其涵盖的三十余种语言变体，包括爪哇语、泰语、越南语等主流及方言文本，构建跨语言的表征学习框架。通过掩码语言建模等自监督任务，模型能够捕捉东南亚语言特有的语法结构和词汇分布，为下游自然语言处理任务奠定基础。

解决学术问题

该数据集有效缓解了东南亚语言在计算语言学领域的数据匮乏困境，为低资源语言建模提供了标准化基准。其多语言并行架构支持语言类型学比较研究，助力学者探索南岛语系、侗台语系等语言家族间的谱系关联。同时，该资源促进了跨语言迁移学习范式的创新，使高资源语言的知识能够向低资源语言有效传递，推动了语言技术公平性的学术讨论。

实际应用

在实际应用层面，该数据集支撑了东南亚地区的多语言信息服务系统开发。基于其训练的模型可应用于智能翻译引擎，改善如印尼语到泰语等语言对的翻译质量；在内容审核领域，帮助平台识别方言及小众语言中的违规文本；此外，该资源还为教育科技公司提供了构建本土化语言学习工具的语料基础，促进数字时代语言文化遗产的保存与传播。

数据集最近研究