afrizalha/KamusZero-6M-Indonesian-TextData
收藏Hugging Face2024-05-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/afrizalha/KamusZero-6M-Indonesian-TextData
下载链接
链接失效反馈官方服务:
资源简介:
KamusZero(Kamus-0)是一个由Mixtral8x7B生成的合成印尼语数据集,包含6,153,047个单词。该数据集主要用于研究,旨在创建基于同质且低容量数据集的流利语言模型。数据集不用于增强现有预训练模型,因其优势在于印尼语的语法准确性。数据集中的单词按频率分为A-D等级,建议使用频率为A和B的数据点以构建语义准确的模型。
KamusZero(Kamus-0)是一个由Mixtral8x7B生成的合成印尼语数据集,包含6,153,047个单词。该数据集主要用于研究,旨在创建基于同质且低容量数据集的流利语言模型。数据集不用于增强现有预训练模型,因其优势在于印尼语的语法准确性。数据集中的单词按频率分为A-D等级,建议使用频率为A和B的数据点以构建语义准确的模型。
提供机构:
afrizalha
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别: 文本生成
- 语言: 印尼语
- 大小类别: 10万<n<100万
数据集描述
- 名称: KamusZero (Kamus-0)
- 生成方式: 由Mixtral8x7B生成
- 目的: 作为印尼语的合成语言数据集,用于解释一系列印尼语单词的含义
- 构建过程: 从Indo4B数据集中提取词频列表,并通过全印尼语词列表进行筛选
- 数据量: 总计6,153,047个单词
使用建议
- 适用场景: 主要用于研究,特别是创建基于同质且低容量数据集的流利语言模型
- 注意事项: 不适合用于增强现有预训练模型,因为Mixtral在印尼语的语法准确性较高,但在印尼语任务中的表现不佳
- 数据筛选建议: 开发者/研究者应仅使用数据集中freq列为A和B的数据点,这些数据点代表词频,分为A-D四个等级,按频率降序排列
创建者信息
- 作者: Afrizal Hasbi Azizy
- 致谢: 感谢Mistral提供的开源Mixtral模型和Groq提供的API



