five

Malaya-Dataset

收藏
github2019-07-16 更新2024-05-31 收录
下载链接:
https://github.com/batermj/Malaya-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
收集了多种类型的马来语语料库,包括新闻、文章、字幕、翻译、情感分析等,用于支持马来语的自然语言处理研究。

A collection of various types of Malay language corpora, including news, articles, subtitles, translations, sentiment analysis, etc., to support natural language processing research in Malay.
创建时间:
2019-04-05
原始信息汇总

数据集概述

Malaya-Dataset 是一个收集了多种与马来语相关的语料库的数据集。该数据集旨在为 Malaya 项目提供支持,并持续更新。

数据收集方法

  1. 新闻、文章和字幕通过爬虫技术收集,代码可从 Malaya/crawler 获取。
  2. 马来语文本主要通过谷歌翻译收集,代码可从 Malaya/translator 获取。
  3. 社交媒体数据(如Twitter、Facebook和Instagram)通过爬虫捕捉,使用Elasticsearch查询进行搜索。

数据集内容

  • 200k English-Malay:总大小 6.9 MB
  • 90k synonym:总大小 4.7 MB
  • English-Malay translation:总大小 91.2 MB
  • Articles:总大小 3.1 MB,包含以下主题:
    • Filem
    • Kerajaan
    • Pembelajaran
    • Pendidikan
    • Sekolah
  • Audience Nationality:总大小 246 KB,包含:
    • constituency
    • national
  • Dependency:总大小 9.5 MB
  • Dictionary, 24550 unique words:总大小 428 KB
  • Emotion:总大小 8.5 MB,包含:
    • Anger
    • Fear
    • Joy
    • Love
    • Sadness
    • Surprise
  • Entities, JSON:总大小 1.1 MB,包含:
    • OTHER
    • law
    • location
    • organization
    • person
    • quantity
    • time
    • event
  • Fake News:总大小 68.2 MB,包含:
    • Negative
    • Positive
  • Gender:总大小 2.2 MB,包含:
    • Unknown
    • Male
    • Female
    • Brand
  • Insincere question:总大小 60.4 MB,包含:
    • Negative
    • Positive
  • Irony:总大小 465 KB,包含:
    • Positive
    • Negative
  • Karangan sekolah:总大小 221 KB
  • Language-detection, Wikipedia:总大小 26.2 MB
  • News, crawled:总大小 28.9 MB,包含51种新闻主题
  • Normalize:总大小 2.6 MB
  • Sentiment News:总大小 496 KB,包含:
    • Positive
    • Negative
  • Sentiment Twitter:总大小 50.6 MB,包含:
    • Positive
    • Negative
  • Sentiment Multidomain:总大小 159 KB,包含:
    • Amazon review, Positive and Negative
    • IMDB review, Positive and Negative
    • Yelp review, Positive and Negative
  • Part-of-Speech:总大小 3.1 MB,包含:
    • ADJ
    • ADP
    • ADV
    • ADX
    • CCONJ
    • DET
    • NOUN
    • NUM
    • PART
    • PRON
    • PROPN
    • SCONJ
    • SYM
    • VERB
    • X
  • Polarity:总大小 1.3 MB,包含:
    • Positive
    • Negative
  • Political landscape:总大小 2 MB,包含:
    • Kerajaan
    • Pembangkang
  • Question-Answer:总大小 2.5 MB
  • Sarcastic news-headline:总大小 1.78 MB,包含:
    • Positive
    • Negative
  • Stemmer:总大小 6.5 MB,包含:
    • News stemming
    • Wikipedia stemming
  • Subjectivity:总大小 1.4 MB,包含:
    • Positive
    • Negative
  • Toxicity:总大小 70 MB,包含:
    • toxic
    • severe toxic
    • obscene
    • threat
    • insult
    • identity hate
  • Subtitle:总大小 1.5 MB

数据集建议

  • 建议使用文本增强技术,如使用同义词或词库进行单词替换。数据集提供了一些同义词,可在 90k synonyms 中找到。
  • Malaya 还提供了基于word2vec的文本增强接口,详情请见 Malaya-text-augmentation

引用信息

  • 使用此数据集时,请引用该仓库。
  • 在分发数据前,请至少先通过电子邮件与我们联系。

捐赠信息

  • 数据集维护者 Husein Zolkepli 需要资金支持,捐赠信息为:7053174643, CIMB Click, Husein Zolkepli
搜集汇总
数据集介绍
main_image_url
构建方式
Malaya-Dataset数据集的构建主要通过自动化爬虫收集网络新闻、文章和社交媒体数据,辅以人工翻译和标注的方式,形成了涵盖多种语言、主题和情感标签的丰富语料库。
使用方法
用户可以通过GitHub仓库直接获取数据集,根据具体的NLP任务需求,选择相应的子数据集进行研究和开发。数据集的使用遵循MIT许可证,允许自由使用和修改,但需在分发前联系作者并获得许可。
背景与挑战
背景概述
Malaya-Dataset是一组旨在支持马来语自然语言处理任务的语料库集合,由Husein Zolkepli于GitHub上创建并维护。该数据集的构建始于对Bahasa Malaysia语料的收集,旨在为Malaya这一自然语言处理库提供支持。数据集涵盖了从新闻、文章到社交媒体帖子等多种类型的文本,包含了情感、性别、讽刺、假新闻等多样化的标注信息。其创建不仅丰富了马来语处理相关的资源,也对推动该领域的研究具有重要意义。
当前挑战
在构建Malaya-Dataset的过程中,研究人员面临了多方面的挑战。首先,收集和整理高质量、多样化的马来语语料库本身就是一项艰巨的任务。其次,数据集的构建过程中涉及到大量的数据清洗、标注和验证工作,这些都需要耗费大量的人力和时间资源。此外,数据集中的多语言检测、情感分析等任务的复杂性,也为数据集的质量控制和准确度带来了挑战。未来,数据集的维护和更新,以及如何确保其在学术和研究中的合规使用,也是需要关注的问题。
常用场景
经典使用场景
Malaya-Dataset作为马来语语料库的集合,其经典使用场景主要集中于自然语言处理(NLP)领域,特别是在马来语的语言模型训练、文本分类、情感分析、命名实体识别等任务中,提供了丰富的数据支持。
解决学术问题
该数据集解决了马来语处理中的多种学术研究问题,包括但不仅限于跨语言翻译的准确性、情感分析的细粒度识别、假新闻检测的效率以及语言识别的准确性等,为相关领域的学术研究提供了坚实基础。
实际应用
在实际应用中,Malaya-Dataset可被用于提升马来语相关的机器翻译服务、社交媒体内容分析、新闻 headline 的情感倾向分析等,对提升多语言信息处理能力具有重要价值。
数据集最近研究
最新研究方向
Malaya-Dataset近期研究方向主要聚焦于马来语自然语言处理领域,涉及情感分析、假新闻检测、语言识别、词性标注、实体识别等多个方面。该数据集的多样化语料库为研究者提供了丰富的资源,有助于推动马来语处理技术在信息检索、社交媒体分析、教育评估等领域的应用,对提升多语言处理能力及构建和谐网络环境具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作