mlao01/spellchecker-km-news-large

Name: mlao01/spellchecker-km-news-large
Creator: mlao01
Published: 2024-07-15 03:51:39
License: 暂无描述

Hugging Face2024-07-15 更新2024-07-13 收录

下载链接：

https://hf-mirror.com/datasets/mlao01/spellchecker-km-news-large

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含高棉语（Khmer）新闻数据，通过合并两个高棉语新闻数据集并进行清理，仅包含指定的字符。清理后的文本作为正确的拼写，而拼写错误的文本是人工生成的。数据集包含训练集和验证集，分别有146,995和1,000个样本。数据集的特征包括拼写错误的文本和纠正后的文本。

This dataset is a combined and cleaned version of two Khmer news datasets, containing only specified characters. It is used for correcting spelling errors, where the misspelled text is synthetically generated. The dataset is divided into a training set with 146995 samples and a validation set with 1000 samples. The dataset size and download size are 156216937 bytes and 65441952 bytes respectively.

提供机构：

mlao01

原始信息汇总

数据集概述

语言

高棉语 (km)

数据集规模

大小类别: 10K<n<100K

数据集信息

特征

misspelled: 类型为字符串 (string)
corrected: 类型为字符串 (string)

数据分割

train:
- 字节数: 155142869
- 样本数: 146995
validation:
- 字节数: 1074068
- 样本数: 1000

下载和数据集大小

下载大小: 65441952
数据集大小: 156216937

配置

config_name: default
- data_files:
  - train: data/train-*
  - validation: data/validation-*

数据集描述

合并了两个高棉语新闻数据集并进行清理，仅保留指定字符。
正确拼写的文本来自清理后的数据集。
错误拼写的文本是人工合成的。

字符选择

包含字符: "កខគឃងចឆជឈញដឋឌឍណតថទធនបផពភមយរលវឝឞសហឡអឣឤឥឦឧឨឩឪឫឬឭឮឯឰឱឲឳាិីឹឺុូួើឿៀេែៃោៅំះៈ៉៊់៌៍៎៏័៑្៓។៕ៗ៛០១២៣៤៥៦៧៨៩"

5,000+

优质数据集

54 个

任务类型

进入经典数据集