ai-forever/spellcheck_benchmark
收藏Hugging Face2023-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai-forever/spellcheck_benchmark
下载链接
链接失效反馈官方服务:
资源简介:
Russian Spellcheck Benchmark数据集是一个用于俄语拼写校正的基准数据集,包含四个子数据集,每个数据集由包含拼写错误的句子及其校正后的句子对组成。这些数据集来源于多种领域,包括社交媒体、互联网博客、GitHub提交、医疗记录、文学、新闻和评论等。数据集通过两阶段的人工标注流程进行校正,确保校正的准确性。数据集的主要任务是自动拼写校正,支持的任务包括拼写校正,并提供了相关的评估指标。数据集的语言为俄语,数据集的规模在10K到20K之间。
Russian Spellcheck Benchmark数据集是一个用于俄语拼写校正的基准数据集,包含四个子数据集,每个数据集由包含拼写错误的句子及其校正后的句子对组成。这些数据集来源于多种领域,包括社交媒体、互联网博客、GitHub提交、医疗记录、文学、新闻和评论等。数据集通过两阶段的人工标注流程进行校正,确保校正的准确性。数据集的主要任务是自动拼写校正,支持的任务包括拼写校正,并提供了相关的评估指标。数据集的语言为俄语,数据集的规模在10K到20K之间。
提供机构:
ai-forever
原始信息汇总
数据集概述
数据集名称
- 名称: Russian Spellcheck Benchmark
- 别名: 俄语拼写检查基准
数据集基本信息
- 语言: 俄语 (
ru-RU) - 许可证: MIT
- 多语言性: 单语种
- 大小: 10K<n<20k
- 任务类别: 文本生成
- 标签: 拼写检查, 俄语
数据集结构
- 数据实例:
- RUSpellRU: 包含源文本和校正文本,大小为4.93 Mb。
- MultidomainGold: 包含源文本、校正文本和领域信息,大小为20.48 Mb。
- MedSpellcheck: 包含源文本和校正文本,大小为2.03 Mb。
- GitHubTypoCorpusRu: 包含源文本和校正文本,大小为1.71 Mb。
- 数据字段:
- 所有子数据集均包含
source和correction字段,部分包含domain字段。
- 所有子数据集均包含
- 数据分割:
- RUSpellRU: 训练集2000条,测试集2008条。
- MultidomainGold: 包含多个领域的训练和测试数据。
- MedSpellcheck 和 GitHubTypoCorpusRu: 仅包含测试数据。
数据集创建
- 来源数据:
- RUSpellRU: 来自LiveJournal的文本。
- MultidomainGold: 来自多个来源,包括网络、新闻、社交媒体等。
- MedSpellcheck: 来自医疗病历的文本。
- GitHubTypoCorpusRu: 来自GitHub的提交记录。
- 标注过程: 通过众包平台Toloka进行两阶段标注,确保至少两名标注者同意的校正结果。
- 标注者: 通过语言考试的俄语母语者。
使用考虑
- 偏见讨论: 数据集可能受限于特定领域,但已尝试通过包含单域和多域数据来解决数据多样性的问题。
- 其他已知限制: 主要关注俄语,未来计划扩展到其他语言。
附加信息
- 未来计划: 计划扩展数据集,包括其他欧洲和CIS语言。
- 数据集管理者: Nikita Martynov (nikita.martynov.98@list.ru)
- 许可证信息: 所有数据集均根据MIT许可证发布。
- 引用信息: 提供了两个相关的引用条目,详细描述了数据集的使用和方法。



