five

thettwe/myspellchecker-resources

收藏
Hugging Face2025-12-17 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/thettwe/myspellchecker-resources
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是用于缅甸语拼写检查器myspellchecker的构建资源,包含三个主要部分:1) segmentation目录下的内存映射字典,用于缅甸语分词;2) models目录下的条件随机场模型,用于基于音节的词标记化;3) pos_data目录下的词性标注数据,用于语法检查。数据集的技术细节包括从.bin到.mmap格式的转换,以提高内存效率、安全性和启动速度。数据集资源来源于myWord和myTokenize项目,使用时自动下载并缓存于指定位置。

This dataset contains build-time resources for the Myanmar language spell checker myspellchecker. It consists of three main components: 1) a memory-mapped dictionary in the segmentation directory for Myanmar word segmentation; 2) a Conditional Random Fields model in the models directory for syllable-based word tokenization; and 3) POS-tagged data in the pos_data directory for grammar checking. The technical notes detail the conversion from .bin to .mmap format for improved memory efficiency, security, and faster startup. The resources are derived from the myWord and myTokenize projects, and are automatically downloaded and cached when used.
提供机构:
thettwe
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作