Malaya-Dataset
收藏github2019-07-16 更新2024-05-31 收录
下载链接:
https://github.com/batermj/Malaya-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
收集了多种类型的马来语语料库,包括新闻、文章、字幕、翻译、情感分析等,用于支持马来语的自然语言处理研究。
A collection of various types of Malay language corpora, including news, articles, subtitles, translations, sentiment analysis, etc., to support natural language processing research in Malay.
创建时间:
2019-04-05
原始信息汇总
数据集概述
Malaya-Dataset 是一个收集了多种与马来语相关的语料库的数据集。该数据集旨在为 Malaya 项目提供支持,并持续更新。
数据收集方法
- 新闻、文章和字幕通过爬虫技术收集,代码可从 Malaya/crawler 获取。
- 马来语文本主要通过谷歌翻译收集,代码可从 Malaya/translator 获取。
- 社交媒体数据(如Twitter、Facebook和Instagram)通过爬虫捕捉,使用Elasticsearch查询进行搜索。
数据集内容
- 200k English-Malay:总大小 6.9 MB
- 90k synonym:总大小 4.7 MB
- English-Malay translation:总大小 91.2 MB
- Articles:总大小 3.1 MB,包含以下主题:
- Filem
- Kerajaan
- Pembelajaran
- Pendidikan
- Sekolah
- Audience Nationality:总大小 246 KB,包含:
- constituency
- national
- Dependency:总大小 9.5 MB
- Dictionary, 24550 unique words:总大小 428 KB
- Emotion:总大小 8.5 MB,包含:
- Anger
- Fear
- Joy
- Love
- Sadness
- Surprise
- Entities, JSON:总大小 1.1 MB,包含:
- OTHER
- law
- location
- organization
- person
- quantity
- time
- event
- Fake News:总大小 68.2 MB,包含:
- Negative
- Positive
- Gender:总大小 2.2 MB,包含:
- Unknown
- Male
- Female
- Brand
- Insincere question:总大小 60.4 MB,包含:
- Negative
- Positive
- Irony:总大小 465 KB,包含:
- Positive
- Negative
- Karangan sekolah:总大小 221 KB
- Language-detection, Wikipedia:总大小 26.2 MB
- News, crawled:总大小 28.9 MB,包含51种新闻主题
- Normalize:总大小 2.6 MB
- Sentiment News:总大小 496 KB,包含:
- Positive
- Negative
- Sentiment Twitter:总大小 50.6 MB,包含:
- Positive
- Negative
- Sentiment Multidomain:总大小 159 KB,包含:
- Amazon review, Positive and Negative
- IMDB review, Positive and Negative
- Yelp review, Positive and Negative
- Part-of-Speech:总大小 3.1 MB,包含:
- ADJ
- ADP
- ADV
- ADX
- CCONJ
- DET
- NOUN
- NUM
- PART
- PRON
- PROPN
- SCONJ
- SYM
- VERB
- X
- Polarity:总大小 1.3 MB,包含:
- Positive
- Negative
- Political landscape:总大小 2 MB,包含:
- Kerajaan
- Pembangkang
- Question-Answer:总大小 2.5 MB
- Sarcastic news-headline:总大小 1.78 MB,包含:
- Positive
- Negative
- Stemmer:总大小 6.5 MB,包含:
- News stemming
- Wikipedia stemming
- Subjectivity:总大小 1.4 MB,包含:
- Positive
- Negative
- Toxicity:总大小 70 MB,包含:
- toxic
- severe toxic
- obscene
- threat
- insult
- identity hate
- Subtitle:总大小 1.5 MB
数据集建议
- 建议使用文本增强技术,如使用同义词或词库进行单词替换。数据集提供了一些同义词,可在 90k synonyms 中找到。
- Malaya 还提供了基于word2vec的文本增强接口,详情请见 Malaya-text-augmentation。
引用信息
- 使用此数据集时,请引用该仓库。
- 在分发数据前,请至少先通过电子邮件与我们联系。
捐赠信息
- 数据集维护者 Husein Zolkepli 需要资金支持,捐赠信息为:7053174643, CIMB Click, Husein Zolkepli。
搜集汇总
数据集介绍

构建方式
Malaya-Dataset数据集的构建主要通过自动化爬虫收集网络新闻、文章和社交媒体数据,辅以人工翻译和标注的方式,形成了涵盖多种语言、主题和情感标签的丰富语料库。
使用方法
用户可以通过GitHub仓库直接获取数据集,根据具体的NLP任务需求,选择相应的子数据集进行研究和开发。数据集的使用遵循MIT许可证,允许自由使用和修改,但需在分发前联系作者并获得许可。
背景与挑战
背景概述
Malaya-Dataset是一组旨在支持马来语自然语言处理任务的语料库集合,由Husein Zolkepli于GitHub上创建并维护。该数据集的构建始于对Bahasa Malaysia语料的收集,旨在为Malaya这一自然语言处理库提供支持。数据集涵盖了从新闻、文章到社交媒体帖子等多种类型的文本,包含了情感、性别、讽刺、假新闻等多样化的标注信息。其创建不仅丰富了马来语处理相关的资源,也对推动该领域的研究具有重要意义。
当前挑战
在构建Malaya-Dataset的过程中,研究人员面临了多方面的挑战。首先,收集和整理高质量、多样化的马来语语料库本身就是一项艰巨的任务。其次,数据集的构建过程中涉及到大量的数据清洗、标注和验证工作,这些都需要耗费大量的人力和时间资源。此外,数据集中的多语言检测、情感分析等任务的复杂性,也为数据集的质量控制和准确度带来了挑战。未来,数据集的维护和更新,以及如何确保其在学术和研究中的合规使用,也是需要关注的问题。
常用场景
经典使用场景
Malaya-Dataset作为马来语语料库的集合,其经典使用场景主要集中于自然语言处理(NLP)领域,特别是在马来语的语言模型训练、文本分类、情感分析、命名实体识别等任务中,提供了丰富的数据支持。
解决学术问题
该数据集解决了马来语处理中的多种学术研究问题,包括但不仅限于跨语言翻译的准确性、情感分析的细粒度识别、假新闻检测的效率以及语言识别的准确性等,为相关领域的学术研究提供了坚实基础。
实际应用
在实际应用中,Malaya-Dataset可被用于提升马来语相关的机器翻译服务、社交媒体内容分析、新闻 headline 的情感倾向分析等,对提升多语言信息处理能力具有重要价值。
数据集最近研究
最新研究方向
Malaya-Dataset近期研究方向主要聚焦于马来语自然语言处理领域,涉及情感分析、假新闻检测、语言识别、词性标注、实体识别等多个方面。该数据集的多样化语料库为研究者提供了丰富的资源,有助于推动马来语处理技术在信息检索、社交媒体分析、教育评估等领域的应用,对提升多语言处理能力及构建和谐网络环境具有重要意义。
以上内容由遇见数据集搜集并总结生成



