five

SEACrowd/identifikasi_bahasa

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/identifikasi_bahasa
下载链接
链接失效反馈
官方服务:
资源简介:
identifikasi-bahasa数据集包含印度尼西亚语、安汶语和爪哇语的文本样本。每个样本由干净的文本内容和语言标签组成。数据集通过手动输入过程进行分组,确保每个语言类别有足够的样本量。数据集排除了标点符号和数字,包含至少3000个安汶语、10000个爪哇语和3500个印度尼西亚语的条目,满足语言识别研究的最低标准。

identifikasi-bahasa数据集包含印度尼西亚语、安汶语和爪哇语的文本样本。每个样本由干净的文本内容和语言标签组成。数据集通过手动输入过程进行分组,确保每个语言类别有足够的样本量。数据集排除了标点符号和数字,包含至少3000个安汶语、10000个爪哇语和3500个印度尼西亚语的条目,满足语言识别研究的最低标准。
提供机构:
SEACrowd
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作