five

mlao01/spellchecker-km-news-large

收藏
Hugging Face2024-07-15 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/mlao01/spellchecker-km-news-large
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含高棉语(Khmer)新闻数据,通过合并两个高棉语新闻数据集并进行清理,仅包含指定的字符。清理后的文本作为正确的拼写,而拼写错误的文本是人工生成的。数据集包含训练集和验证集,分别有146,995和1,000个样本。数据集的特征包括拼写错误的文本和纠正后的文本。

This dataset is a combined and cleaned version of two Khmer news datasets, containing only specified characters. It is used for correcting spelling errors, where the misspelled text is synthetically generated. The dataset is divided into a training set with 146995 samples and a validation set with 1000 samples. The dataset size and download size are 156216937 bytes and 65441952 bytes respectively.
提供机构:
mlao01
原始信息汇总

数据集概述

语言

  • 高棉语 (km)

数据集规模

  • 大小类别: 10K<n<100K

数据集信息

特征

  • misspelled: 类型为字符串 (string)
  • corrected: 类型为字符串 (string)

数据分割

  • train:
    • 字节数: 155142869
    • 样本数: 146995
  • validation:
    • 字节数: 1074068
    • 样本数: 1000

下载和数据集大小

  • 下载大小: 65441952
  • 数据集大小: 156216937

配置

  • config_name: default
    • data_files:
      • train: data/train-*
      • validation: data/validation-*

数据集描述

  • 合并了两个高棉语新闻数据集并进行清理,仅保留指定字符。
  • 正确拼写的文本来自清理后的数据集。
  • 错误拼写的文本是人工合成的。

字符选择

  • 包含字符: "កខគឃងចឆជឈញដឋឌឍណតថទធនបផពភមយរលវឝឞសហឡអឣឤឥឦឧឨឩឪឫឬឭឮឯឰឱឲឳាិីឹឺុូួើឿៀេែៃោៅំះៈ៉៊់៌៍៎៏័៑្៓។៕ៗ៛០១២៣៤៥៦៧៨៩"
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作