five

Elaine/malaysian_codemixed

收藏
Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Elaine/malaysian_codemixed
下载链接
链接失效反馈
官方服务:
资源简介:
数据集是从Facebook、Twitter、KLSE Screener和Lowyat等平台抓取的,并由马来西亚本地人进行标注。数据集中包含了多种语言的词汇,包括英语、马来语、中文、泰米尔语等,并且每种语言都有详细的标签定义和统计信息。

数据集是从Facebook、Twitter、KLSE Screener和Lowyat等平台抓取的,并由马来西亚本地人进行标注。数据集中包含了多种语言的词汇,包括英语、马来语、中文、泰米尔语等,并且每种语言都有详细的标签定义和统计信息。
提供机构:
Elaine
原始信息汇总

数据集概述

数据来源

  • 数据集内容来自Facebook、Twitter、KLSE Screener和Lowyat,并由马来西亚本地人进行标注。

标签定义与统计

标签 描述 示例 数量(占比) 唯一数量(占比)
eng 英语单词,包括拼写错误 kipidap, lol, 50cents 19,519 (42.00%) 3887 (36.53%)
msa 马来语单词,包括缩写、拼写错误、地区方言、印尼语和阿拉伯语(不包括Kadazan-Dusun或Iban等本土语言) Bole, xpe, camni, Allahyarham, kah 8746 (18.82%) 2501 (23.50%)
zho 中文汉字 5,988 (12.88%) 1920 (18.04%)
tam 泰米尔字符 10 (0.02%) 10 (0.10%)
mix 混合语言或语法在一个单词中 slowkan 17 (0.04%) 16 (0.15%)
rzho 使用罗马字符拼音的普通话单词 hen hao xiao 12 (0.03%) 9 (0.09%)
ryue 使用罗马字符拼音的粤语单词 sohai, sai lang 25 (0.05%) 16 (0.15%)
rnan 使用罗马字符拼音的福建话单词 kaw kaw, huat ah 24 (0.05%) 20 (0.19%)
rtam 使用罗马字符拼音的泰米尔语单词 nee solredum vastevumdan 7 (0.02%) 7 (0.07%)
ne 罗马字符的专有名词、不指示特定语言的通用词、屏蔽的命名实体 MACC, SPRM, Singapura, WhatsApp, bento 3120 (6.71%) 973 (9.14%)
fw 已知的外语单词 oppa, Allahummargh-firlaha 657 (1.41%) 412 (3.87%)
amb 在多种语言间模糊不清的词 Hospital, bonus 18 (0.04%) 18 (0.17%)
univ 跨语言的感叹词、符号、表情和表情符号、屏蔽项、数字和通用单位 RM20, 200km, 6am, Wa, lah, ohhh, aiya, meh, leh, .,?! =) >.< 8223 (17.69%) 757 (7.11%)
unk 未知语言 skalskks, Aosgxbsuwu 107 (0.23%) 96 (0.90%)

数据集总量

  • 总数:46,473
  • 唯一数量:10,642
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作