five

SEACrowd/melayu_brunei

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/melayu_brunei
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两篇在马来西亚沙巴州韦斯顿镇收集的文莱马来语(ISO 639-3: kxd)文本。这些文本展示了与文莱达鲁萨兰国使用的文莱马来语相似的语言特征,如仅包含三个元音/a, i, u/的元音系统、使用第一人称复数包含代词kitani以及在被动语态从句中使用基本词干及物形式。其中一篇文本讲述了一个关于Batang Dayang的民间故事,另一篇文本包括两个片段:爪哇逃亡者抵达韦斯顿和韦斯顿附近城镇Bukau名称的起源。

该数据集包含两篇在马来西亚沙巴州韦斯顿镇收集的文莱马来语(ISO 639-3: kxd)文本。这些文本展示了与文莱达鲁萨兰国使用的文莱马来语相似的语言特征,如仅包含三个元音/a, i, u/的元音系统、使用第一人称复数包含代词kitani以及在被动语态从句中使用基本词干及物形式。其中一篇文本讲述了一个关于Batang Dayang的民间故事,另一篇文本包括两个片段:爪哇逃亡者抵达韦斯顿和韦斯顿附近城镇Bukau名称的起源。
提供机构:
SEACrowd
原始信息汇总

Melayu Brunei 数据集概述

语言

  • kxd

支持的任务

  • 自监督预训练 (Self Supervised Pretraining)

数据集版本

  • 源版本: 1.0.0
  • SEACrowd版本: 2024.06.20

数据集许可证

  • Creative Commons Attribution 4.0 (cc-by-4.0)

引用

  • Shiohara, Asako, & Fitri, Mohd Izzuddin. (2021). Two Brunei Malay Texts: A Story of the Maiden Stem and Two Episodes in the History of Weston and Bukau. アジア・アフリカの言語と言語学 (Asian and African languages and linguistics), 15, 171-190.
  • Lovenia, Holy, et al. (2024). SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages. arXiv preprint arXiv: 2406.10118.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作