Elaine/malaysian_codemixed
收藏Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Elaine/malaysian_codemixed
下载链接
链接失效反馈官方服务:
资源简介:
数据集是从Facebook、Twitter、KLSE Screener和Lowyat等平台抓取的,并由马来西亚本地人进行标注。数据集中包含了多种语言的词汇,包括英语、马来语、中文、泰米尔语等,并且每种语言都有详细的标签定义和统计信息。
数据集是从Facebook、Twitter、KLSE Screener和Lowyat等平台抓取的,并由马来西亚本地人进行标注。数据集中包含了多种语言的词汇,包括英语、马来语、中文、泰米尔语等,并且每种语言都有详细的标签定义和统计信息。
提供机构:
Elaine
原始信息汇总
数据集概述
数据来源
- 数据集内容来自Facebook、Twitter、KLSE Screener和Lowyat,并由马来西亚本地人进行标注。
标签定义与统计
| 标签 | 描述 | 示例 | 数量(占比) | 唯一数量(占比) |
|---|---|---|---|---|
| eng | 英语单词,包括拼写错误 | kipidap, lol, 50cents | 19,519 (42.00%) | 3887 (36.53%) |
| msa | 马来语单词,包括缩写、拼写错误、地区方言、印尼语和阿拉伯语(不包括Kadazan-Dusun或Iban等本土语言) | Bole, xpe, camni, Allahyarham, kah | 8746 (18.82%) | 2501 (23.50%) |
| zho | 中文汉字 | 5,988 (12.88%) | 1920 (18.04%) | |
| tam | 泰米尔字符 | 10 (0.02%) | 10 (0.10%) | |
| mix | 混合语言或语法在一个单词中 | slowkan | 17 (0.04%) | 16 (0.15%) |
| rzho | 使用罗马字符拼音的普通话单词 | hen hao xiao | 12 (0.03%) | 9 (0.09%) |
| ryue | 使用罗马字符拼音的粤语单词 | sohai, sai lang | 25 (0.05%) | 16 (0.15%) |
| rnan | 使用罗马字符拼音的福建话单词 | kaw kaw, huat ah | 24 (0.05%) | 20 (0.19%) |
| rtam | 使用罗马字符拼音的泰米尔语单词 | nee solredum vastevumdan | 7 (0.02%) | 7 (0.07%) |
| ne | 罗马字符的专有名词、不指示特定语言的通用词、屏蔽的命名实体 | MACC, SPRM, Singapura, WhatsApp, bento | 3120 (6.71%) | 973 (9.14%) |
| fw | 已知的外语单词 | oppa, Allahummargh-firlaha | 657 (1.41%) | 412 (3.87%) |
| amb | 在多种语言间模糊不清的词 | Hospital, bonus | 18 (0.04%) | 18 (0.17%) |
| univ | 跨语言的感叹词、符号、表情和表情符号、屏蔽项、数字和通用单位 | RM20, 200km, 6am, Wa, lah, ohhh, aiya, meh, leh, .,?! =) >.< | 8223 (17.69%) | 757 (7.11%) |
| unk | 未知语言 | skalskks, Aosgxbsuwu | 107 (0.23%) | 96 (0.90%) |
数据集总量
- 总数:46,473
- 唯一数量:10,642



