five

ai-forever/spellcheck_benchmark

收藏
Hugging Face2023-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai-forever/spellcheck_benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
Russian Spellcheck Benchmark数据集是一个用于俄语拼写校正的基准数据集,包含四个子数据集,每个数据集由包含拼写错误的句子及其校正后的句子对组成。这些数据集来源于多种领域,包括社交媒体、互联网博客、GitHub提交、医疗记录、文学、新闻和评论等。数据集通过两阶段的人工标注流程进行校正,确保校正的准确性。数据集的主要任务是自动拼写校正,支持的任务包括拼写校正,并提供了相关的评估指标。数据集的语言为俄语,数据集的规模在10K到20K之间。

Russian Spellcheck Benchmark数据集是一个用于俄语拼写校正的基准数据集,包含四个子数据集,每个数据集由包含拼写错误的句子及其校正后的句子对组成。这些数据集来源于多种领域,包括社交媒体、互联网博客、GitHub提交、医疗记录、文学、新闻和评论等。数据集通过两阶段的人工标注流程进行校正,确保校正的准确性。数据集的主要任务是自动拼写校正,支持的任务包括拼写校正,并提供了相关的评估指标。数据集的语言为俄语,数据集的规模在10K到20K之间。
提供机构:
ai-forever
原始信息汇总

数据集概述

数据集名称

  • 名称: Russian Spellcheck Benchmark
  • 别名: 俄语拼写检查基准

数据集基本信息

  • 语言: 俄语 (ru-RU)
  • 许可证: MIT
  • 多语言性: 单语种
  • 大小: 10K<n<20k
  • 任务类别: 文本生成
  • 标签: 拼写检查, 俄语

数据集结构

  • 数据实例:
    • RUSpellRU: 包含源文本和校正文本,大小为4.93 Mb。
    • MultidomainGold: 包含源文本、校正文本和领域信息,大小为20.48 Mb。
    • MedSpellcheck: 包含源文本和校正文本,大小为2.03 Mb。
    • GitHubTypoCorpusRu: 包含源文本和校正文本,大小为1.71 Mb。
  • 数据字段:
    • 所有子数据集均包含 sourcecorrection 字段,部分包含 domain 字段。
  • 数据分割:
    • RUSpellRU: 训练集2000条,测试集2008条。
    • MultidomainGold: 包含多个领域的训练和测试数据。
    • MedSpellcheckGitHubTypoCorpusRu: 仅包含测试数据。

数据集创建

  • 来源数据:
    • RUSpellRU: 来自LiveJournal的文本。
    • MultidomainGold: 来自多个来源,包括网络、新闻、社交媒体等。
    • MedSpellcheck: 来自医疗病历的文本。
    • GitHubTypoCorpusRu: 来自GitHub的提交记录。
  • 标注过程: 通过众包平台Toloka进行两阶段标注,确保至少两名标注者同意的校正结果。
  • 标注者: 通过语言考试的俄语母语者。

使用考虑

  • 偏见讨论: 数据集可能受限于特定领域,但已尝试通过包含单域和多域数据来解决数据多样性的问题。
  • 其他已知限制: 主要关注俄语,未来计划扩展到其他语言。

附加信息

  • 未来计划: 计划扩展数据集,包括其他欧洲和CIS语言。
  • 数据集管理者: Nikita Martynov (nikita.martynov.98@list.ru)
  • 许可证信息: 所有数据集均根据MIT许可证发布。
  • 引用信息: 提供了两个相关的引用条目,详细描述了数据集的使用和方法。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作