five

word-corpus

收藏
github2024-01-18 更新2024-05-31 收录
下载链接:
https://github.com/wipfli/word-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
从OpenStreetMap、Wikipedia和Wikidata提取的针对东南亚和印度语言的词汇库,包含多种语言和脚本的文本数据。

A lexicon extracted from OpenStreetMap, Wikipedia, and Wikidata, focusing on Southeast Asian and Indian languages, encompassing textual data in multiple languages and scripts.
创建时间:
2024-01-17
原始信息汇总

数据集名称

Word Corpus

数据来源

  • OpenStreetMap
  • Wikipedia
  • Wikidata

目标语言

South-East Asian and Indic languages

数据许可证

  • OpenStreetMap-derived data: Open Data Commons Open Database License (ODbL)
  • Wikipedia-derived data: Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA)
  • Wikidata-derived data: Creative Commons CC0 License

下载内容

包含重复的语料库

  • osm-corpus-with-duplicates.txt.zip (19M)
  • wikipedia-corpus-with-duplicates.txt.zip (816M)
  • wikidata-corpus-with-duplicates.txt.zip (118M)

单一脚本无重复的语料库

  • Devanagari
    • osm-devanagari-corpus.txt.zip (197K)
    • wikipedia-devanagari-corpus.txt.zip (94M)
    • wikidata-devanagari-corpus.txt.zip (1.2M)
  • Myanmar
    • osm-myanmar-corpus.txt.zip (206K)
    • wikipedia-myanmar-corpus.txt.zip (28M)
    • wikidata-myanmar-corpus.txt.zip (594K)

数据处理步骤

  1. 下载数据源
  2. 提取非Latin/Greek/Cyrillic/CJK文本
  3. 生成包含重复的语料库
  4. 过滤语料库为单一脚本
搜集汇总
数据集介绍
main_image_url
构建方式
word-corpus数据集通过从OpenStreetMap、Wikipedia和Wikidata中提取文本构建而成,专注于南亚和东南亚语言。数据提取过程包括下载原始数据、过滤非拉丁/希腊/西里尔/中日韩字符,并生成包含重复项的语料库。针对特定脚本的语料库则通过进一步过滤生成,确保数据的多样性和代表性。
特点
该数据集的特点在于其专注于非拉丁/希腊/西里尔/中日韩字符的文本,涵盖了南亚和东南亚地区的多种语言。数据集提供了包含重复项的完整语料库,以及针对特定脚本(如天城文、缅甸文)的去重版本,便于用户根据需求选择使用。数据来源多样,确保了语料库的广泛性和实用性。
使用方法
用户可以通过下载提供的压缩文件获取语料库,或按照GitHub页面上的步骤自行生成。首先,使用提供的脚本下载OpenStreetMap、Wikipedia和Wikidata的原始数据。接着,运行提取脚本过滤非拉丁/希腊/西里尔/中日韩字符,并生成包含重复项的语料库。最后,通过过滤脚本生成特定脚本的去重版本,满足不同研究需求。
背景与挑战
背景概述
word-corpus数据集是一个专注于东南亚和印度语言的多源文本语料库,主要从OpenStreetMap、Wikipedia和Wikidata中提取数据。该数据集的创建旨在为这些地区的语言研究提供丰富的文本资源,特别是在非拉丁、希腊、西里尔和CJK(中日韩)字符的文本处理领域。通过整合多个开放数据源,word-corpus为语言学家、自然语言处理研究人员以及相关领域的学者提供了宝贵的语料支持。该数据集的出现填补了东南亚和印度语言在文本资源上的空白,推动了这些语言在机器翻译、文本分类和信息检索等领域的应用研究。
当前挑战
word-corpus数据集在构建过程中面临多重挑战。首先,东南亚和印度语言的多样性使得数据采集和清洗变得复杂,特别是在处理不同书写系统时,如何确保数据的准确性和一致性成为一大难题。其次,数据源的异构性要求开发者在提取和整合数据时进行大量的预处理工作,以确保语料库的质量。此外,由于这些语言的文本资源相对稀缺,数据集的规模和质量受到限制,进一步增加了构建难度。在应用层面,如何利用这些语料库进行有效的自然语言处理任务,如机器翻译和文本分类,仍然是一个亟待解决的问题。
常用场景
经典使用场景
在自然语言处理领域,word-corpus数据集广泛应用于东南亚和印度语言的文本分析。通过从OpenStreetMap、Wikipedia和Wikidata提取的非拉丁/希腊/西里尔/中日韩文字文本,该数据集为语言模型训练、机器翻译和语音识别等任务提供了丰富的语料资源。特别是在处理多语言和低资源语言时,word-corpus展现了其独特的价值。
衍生相关工作
word-corpus数据集催生了一系列经典研究工作,特别是在低资源语言处理领域。基于该数据集的研究成果包括多语言词向量模型、跨语言文本分类算法以及面向东南亚和印度语言的机器翻译系统。这些工作不仅丰富了自然语言处理的理论体系,也为实际应用提供了技术支撑,推动了相关领域的持续发展。
数据集最近研究
最新研究方向
在自然语言处理领域,word-corpus数据集为东南亚和印度语言的研究提供了重要的文本资源。该数据集通过整合OpenStreetMap、Wikipedia和Wikidata的文本数据,专注于非拉丁/希腊/西里尔/中日韩字符的提取,为低资源语言的机器翻译、文本生成和语言模型训练提供了丰富的基础数据。近年来,随着多语言模型和跨语言迁移学习的兴起,word-corpus数据集在支持东南亚和印度语言的模型优化中发挥了关键作用。特别是在Devanagari和Myanmar等特定文字的研究中,该数据集为语言学家和计算机科学家提供了独特的实验平台,推动了这些语言在信息检索、语音识别和语义分析等前沿方向的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作