ai-forever/spellcheck_benchmark

Name: ai-forever/spellcheck_benchmark
Creator: ai-forever
Published: 2023-10-04 16:13:44
License: 暂无描述

Hugging Face2023-10-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ai-forever/spellcheck_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Russian Spellcheck Benchmark数据集是一个用于俄语拼写校正的基准数据集，包含四个子数据集，每个数据集由包含拼写错误的句子及其校正后的句子对组成。这些数据集来源于多种领域，包括社交媒体、互联网博客、GitHub提交、医疗记录、文学、新闻和评论等。数据集通过两阶段的人工标注流程进行校正，确保校正的准确性。数据集的主要任务是自动拼写校正，支持的任务包括拼写校正，并提供了相关的评估指标。数据集的语言为俄语，数据集的规模在10K到20K之间。

提供机构：

ai-forever

原始信息汇总

数据集概述

数据集名称

名称: Russian Spellcheck Benchmark
别名: 俄语拼写检查基准

数据集基本信息

语言: 俄语 (ru-RU)
许可证: MIT
多语言性: 单语种
大小: 10K<n<20k
任务类别: 文本生成
标签: 拼写检查, 俄语

数据集结构

数据实例:
- RUSpellRU: 包含源文本和校正文本，大小为4.93 Mb。
- MultidomainGold: 包含源文本、校正文本和领域信息，大小为20.48 Mb。
- MedSpellcheck: 包含源文本和校正文本，大小为2.03 Mb。
- GitHubTypoCorpusRu: 包含源文本和校正文本，大小为1.71 Mb。
数据字段:
- 所有子数据集均包含 source 和 correction 字段，部分包含 domain 字段。
数据分割:
- RUSpellRU: 训练集2000条，测试集2008条。
- MultidomainGold: 包含多个领域的训练和测试数据。
- MedSpellcheck 和 GitHubTypoCorpusRu: 仅包含测试数据。

数据集创建

来源数据:
- RUSpellRU: 来自LiveJournal的文本。
- MultidomainGold: 来自多个来源，包括网络、新闻、社交媒体等。
- MedSpellcheck: 来自医疗病历的文本。
- GitHubTypoCorpusRu: 来自GitHub的提交记录。
标注过程: 通过众包平台Toloka进行两阶段标注，确保至少两名标注者同意的校正结果。
标注者: 通过语言考试的俄语母语者。

使用考虑

偏见讨论: 数据集可能受限于特定领域，但已尝试通过包含单域和多域数据来解决数据多样性的问题。
其他已知限制: 主要关注俄语，未来计划扩展到其他语言。

附加信息

未来计划: 计划扩展数据集，包括其他欧洲和CIS语言。
数据集管理者: Nikita Martynov (nikita.martynov.98@list.ru)
许可证信息: 所有数据集均根据MIT许可证发布。
引用信息: 提供了两个相关的引用条目，详细描述了数据集的使用和方法。

5,000+

优质数据集

54 个

任务类型

进入经典数据集