Malaya-Dataset

github2019-07-16 更新2024-05-31 收录

下载链接：

https://github.com/batermj/Malaya-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

收集了多种类型的马来语语料库，包括新闻、文章、字幕、翻译、情感分析等，用于支持马来语的自然语言处理研究。

A collection of various types of Malay language corpora, including news, articles, subtitles, translations, sentiment analysis, etc., to support natural language processing research in Malay.

创建时间：

2019-04-05

原始信息汇总

数据集概述

Malaya-Dataset 是一个收集了多种与马来语相关的语料库的数据集。该数据集旨在为 Malaya 项目提供支持，并持续更新。

数据收集方法

新闻、文章和字幕通过爬虫技术收集，代码可从 Malaya/crawler 获取。
马来语文本主要通过谷歌翻译收集，代码可从 Malaya/translator 获取。
社交媒体数据（如Twitter、Facebook和Instagram）通过爬虫捕捉，使用Elasticsearch查询进行搜索。

数据集内容

200k English-Malay：总大小 6.9 MB
90k synonym：总大小 4.7 MB
English-Malay translation：总大小 91.2 MB
Articles：总大小 3.1 MB，包含以下主题：
- Filem
- Kerajaan
- Pembelajaran
- Pendidikan
- Sekolah
Audience Nationality：总大小 246 KB，包含：
- constituency
- national
Dependency：总大小 9.5 MB
Dictionary, 24550 unique words：总大小 428 KB
Emotion：总大小 8.5 MB，包含：
- Anger
- Fear
- Joy
- Love
- Sadness
- Surprise
Entities, JSON：总大小 1.1 MB，包含：
- OTHER
- law
- location
- organization
- person
- quantity
- time
- event
Fake News：总大小 68.2 MB，包含：
- Negative
- Positive
Gender：总大小 2.2 MB，包含：
- Unknown
- Male
- Female
- Brand
Insincere question：总大小 60.4 MB，包含：
- Negative
- Positive
Irony：总大小 465 KB，包含：
- Positive
- Negative
Karangan sekolah：总大小 221 KB
Language-detection, Wikipedia：总大小 26.2 MB
News, crawled：总大小 28.9 MB，包含51种新闻主题
Normalize：总大小 2.6 MB
Sentiment News：总大小 496 KB，包含：
- Positive
- Negative
Sentiment Twitter：总大小 50.6 MB，包含：
- Positive
- Negative
Sentiment Multidomain：总大小 159 KB，包含：
- Amazon review, Positive and Negative
- IMDB review, Positive and Negative
- Yelp review, Positive and Negative
Part-of-Speech：总大小 3.1 MB，包含：
- ADJ
- ADP
- ADV
- ADX
- CCONJ
- DET
- NOUN
- NUM
- PART
- PRON
- PROPN
- SCONJ
- SYM
- VERB
- X
Polarity：总大小 1.3 MB，包含：
- Positive
- Negative
Political landscape：总大小 2 MB，包含：
- Kerajaan
- Pembangkang
Question-Answer：总大小 2.5 MB
Sarcastic news-headline：总大小 1.78 MB，包含：
- Positive
- Negative
Stemmer：总大小 6.5 MB，包含：
- News stemming
- Wikipedia stemming
Subjectivity：总大小 1.4 MB，包含：
- Positive
- Negative
Toxicity：总大小 70 MB，包含：
- toxic
- severe toxic
- obscene
- threat
- insult
- identity hate
Subtitle：总大小 1.5 MB

数据集建议

建议使用文本增强技术，如使用同义词或词库进行单词替换。数据集提供了一些同义词，可在 90k synonyms 中找到。
Malaya 还提供了基于word2vec的文本增强接口，详情请见 Malaya-text-augmentation。

引用信息

使用此数据集时，请引用该仓库。
在分发数据前，请至少先通过电子邮件与我们联系。

捐赠信息

数据集维护者 Husein Zolkepli 需要资金支持，捐赠信息为：7053174643, CIMB Click, Husein Zolkepli。

搜集汇总

数据集介绍

构建方式

Malaya-Dataset数据集的构建主要通过自动化爬虫收集网络新闻、文章和社交媒体数据，辅以人工翻译和标注的方式，形成了涵盖多种语言、主题和情感标签的丰富语料库。

使用方法

用户可以通过GitHub仓库直接获取数据集，根据具体的NLP任务需求，选择相应的子数据集进行研究和开发。数据集的使用遵循MIT许可证，允许自由使用和修改，但需在分发前联系作者并获得许可。

背景与挑战

背景概述

Malaya-Dataset是一组旨在支持马来语自然语言处理任务的语料库集合，由Husein Zolkepli于GitHub上创建并维护。该数据集的构建始于对Bahasa Malaysia语料的收集，旨在为Malaya这一自然语言处理库提供支持。数据集涵盖了从新闻、文章到社交媒体帖子等多种类型的文本，包含了情感、性别、讽刺、假新闻等多样化的标注信息。其创建不仅丰富了马来语处理相关的资源，也对推动该领域的研究具有重要意义。

当前挑战

在构建Malaya-Dataset的过程中，研究人员面临了多方面的挑战。首先，收集和整理高质量、多样化的马来语语料库本身就是一项艰巨的任务。其次，数据集的构建过程中涉及到大量的数据清洗、标注和验证工作，这些都需要耗费大量的人力和时间资源。此外，数据集中的多语言检测、情感分析等任务的复杂性，也为数据集的质量控制和准确度带来了挑战。未来，数据集的维护和更新，以及如何确保其在学术和研究中的合规使用，也是需要关注的问题。

常用场景

经典使用场景

Malaya-Dataset作为马来语语料库的集合，其经典使用场景主要集中于自然语言处理（NLP）领域，特别是在马来语的语言模型训练、文本分类、情感分析、命名实体识别等任务中，提供了丰富的数据支持。

解决学术问题

该数据集解决了马来语处理中的多种学术研究问题，包括但不仅限于跨语言翻译的准确性、情感分析的细粒度识别、假新闻检测的效率以及语言识别的准确性等，为相关领域的学术研究提供了坚实基础。

实际应用

在实际应用中，Malaya-Dataset可被用于提升马来语相关的机器翻译服务、社交媒体内容分析、新闻 headline 的情感倾向分析等，对提升多语言信息处理能力具有重要价值。

数据集最近研究