SEACrowd/identifikasi_bahasa
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/identifikasi_bahasa
下载链接
链接失效反馈官方服务:
资源简介:
identifikasi-bahasa数据集包含印度尼西亚语、安汶语和爪哇语的文本样本。每个样本由干净的文本内容和语言标签组成。数据集通过手动输入过程进行分组,确保每个语言类别有足够的样本量。数据集排除了标点符号和数字,包含至少3000个安汶语、10000个爪哇语和3500个印度尼西亚语的条目,满足语言识别研究的最低标准。
identifikasi-bahasa数据集包含印度尼西亚语、安汶语和爪哇语的文本样本。每个样本由干净的文本内容和语言标签组成。数据集通过手动输入过程进行分组,确保每个语言类别有足够的样本量。数据集排除了标点符号和数字,包含至少3000个安汶语、10000个爪哇语和3500个印度尼西亚语的条目,满足语言识别研究的最低标准。
提供机构:
SEACrowd



