mlao01/spellchecker-km-news-large
收藏Hugging Face2024-07-15 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/mlao01/spellchecker-km-news-large
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含高棉语(Khmer)新闻数据,通过合并两个高棉语新闻数据集并进行清理,仅包含指定的字符。清理后的文本作为正确的拼写,而拼写错误的文本是人工生成的。数据集包含训练集和验证集,分别有146,995和1,000个样本。数据集的特征包括拼写错误的文本和纠正后的文本。
This dataset is a combined and cleaned version of two Khmer news datasets, containing only specified characters. It is used for correcting spelling errors, where the misspelled text is synthetically generated. The dataset is divided into a training set with 146995 samples and a validation set with 1000 samples. The dataset size and download size are 156216937 bytes and 65441952 bytes respectively.
提供机构:
mlao01
原始信息汇总
数据集概述
语言
- 高棉语 (km)
数据集规模
- 大小类别: 10K<n<100K
数据集信息
特征
- misspelled: 类型为字符串 (string)
- corrected: 类型为字符串 (string)
数据分割
- train:
- 字节数: 155142869
- 样本数: 146995
- validation:
- 字节数: 1074068
- 样本数: 1000
下载和数据集大小
- 下载大小: 65441952
- 数据集大小: 156216937
配置
- config_name: default
- data_files:
- train: data/train-*
- validation: data/validation-*
- data_files:
数据集描述
- 合并了两个高棉语新闻数据集并进行清理,仅保留指定字符。
- 正确拼写的文本来自清理后的数据集。
- 错误拼写的文本是人工合成的。
字符选择
- 包含字符: "កខគឃងចឆជឈញដឋឌឍណតថទធនបផពភមយរលវឝឞសហឡអឣឤឥឦឧឨឩឪឫឬឭឮឯឰឱឲឳាិីឹឺុូួើឿៀេែៃោៅំះៈ៉៊់៌៍៎៏័៑្៓។៕ៗ៛០១២៣៤៥៦៧៨៩"



