word-corpus

github2024-01-18 更新2024-05-31 收录

下载链接：

https://github.com/wipfli/word-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

从OpenStreetMap、Wikipedia和Wikidata提取的针对东南亚和印度语言的词汇库，包含多种语言和脚本的文本数据。

A lexicon extracted from OpenStreetMap, Wikipedia, and Wikidata, focusing on Southeast Asian and Indian languages, encompassing textual data in multiple languages and scripts.

创建时间：

2024-01-17

原始信息汇总

数据集名称

Word Corpus

数据来源

OpenStreetMap
Wikipedia
Wikidata

目标语言

South-East Asian and Indic languages

数据许可证

OpenStreetMap-derived data: Open Data Commons Open Database License (ODbL)
Wikipedia-derived data: Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA)
Wikidata-derived data: Creative Commons CC0 License

下载内容

包含重复的语料库

osm-corpus-with-duplicates.txt.zip (19M)
wikipedia-corpus-with-duplicates.txt.zip (816M)
wikidata-corpus-with-duplicates.txt.zip (118M)

单一脚本无重复的语料库

Devanagari
- osm-devanagari-corpus.txt.zip (197K)
- wikipedia-devanagari-corpus.txt.zip (94M)
- wikidata-devanagari-corpus.txt.zip (1.2M)
Myanmar
- osm-myanmar-corpus.txt.zip (206K)
- wikipedia-myanmar-corpus.txt.zip (28M)
- wikidata-myanmar-corpus.txt.zip (594K)

数据处理步骤

下载数据源
提取非Latin/Greek/Cyrillic/CJK文本
生成包含重复的语料库
过滤语料库为单一脚本

搜集汇总

数据集介绍

构建方式

word-corpus数据集通过从OpenStreetMap、Wikipedia和Wikidata中提取文本构建而成，专注于南亚和东南亚语言。数据提取过程包括下载原始数据、过滤非拉丁/希腊/西里尔/中日韩字符，并生成包含重复项的语料库。针对特定脚本的语料库则通过进一步过滤生成，确保数据的多样性和代表性。

特点

该数据集的特点在于其专注于非拉丁/希腊/西里尔/中日韩字符的文本，涵盖了南亚和东南亚地区的多种语言。数据集提供了包含重复项的完整语料库，以及针对特定脚本（如天城文、缅甸文）的去重版本，便于用户根据需求选择使用。数据来源多样，确保了语料库的广泛性和实用性。

使用方法

用户可以通过下载提供的压缩文件获取语料库，或按照GitHub页面上的步骤自行生成。首先，使用提供的脚本下载OpenStreetMap、Wikipedia和Wikidata的原始数据。接着，运行提取脚本过滤非拉丁/希腊/西里尔/中日韩字符，并生成包含重复项的语料库。最后，通过过滤脚本生成特定脚本的去重版本，满足不同研究需求。

背景与挑战

背景概述

word-corpus数据集是一个专注于东南亚和印度语言的多源文本语料库，主要从OpenStreetMap、Wikipedia和Wikidata中提取数据。该数据集的创建旨在为这些地区的语言研究提供丰富的文本资源，特别是在非拉丁、希腊、西里尔和CJK（中日韩）字符的文本处理领域。通过整合多个开放数据源，word-corpus为语言学家、自然语言处理研究人员以及相关领域的学者提供了宝贵的语料支持。该数据集的出现填补了东南亚和印度语言在文本资源上的空白，推动了这些语言在机器翻译、文本分类和信息检索等领域的应用研究。

当前挑战

word-corpus数据集在构建过程中面临多重挑战。首先，东南亚和印度语言的多样性使得数据采集和清洗变得复杂，特别是在处理不同书写系统时，如何确保数据的准确性和一致性成为一大难题。其次，数据源的异构性要求开发者在提取和整合数据时进行大量的预处理工作，以确保语料库的质量。此外，由于这些语言的文本资源相对稀缺，数据集的规模和质量受到限制，进一步增加了构建难度。在应用层面，如何利用这些语料库进行有效的自然语言处理任务，如机器翻译和文本分类，仍然是一个亟待解决的问题。

常用场景

经典使用场景

在自然语言处理领域，word-corpus数据集广泛应用于东南亚和印度语言的文本分析。通过从OpenStreetMap、Wikipedia和Wikidata提取的非拉丁/希腊/西里尔/中日韩文字文本，该数据集为语言模型训练、机器翻译和语音识别等任务提供了丰富的语料资源。特别是在处理多语言和低资源语言时，word-corpus展现了其独特的价值。

衍生相关工作

word-corpus数据集催生了一系列经典研究工作，特别是在低资源语言处理领域。基于该数据集的研究成果包括多语言词向量模型、跨语言文本分类算法以及面向东南亚和印度语言的机器翻译系统。这些工作不仅丰富了自然语言处理的理论体系，也为实际应用提供了技术支撑，推动了相关领域的持续发展。

数据集最近研究