ai-forever/spellcheck_punctuation_benchmark
收藏Hugging Face2024-04-03 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/ai-forever/spellcheck_punctuation_benchmark
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Russian Spellcheck Punctuation Benchmark,主要用于俄语拼写和标点校正任务。数据集包含四个子数据集,每个子数据集由包含拼写和标点错误的俄语句子及其校正后的句子对组成。数据来源多样,包括社交媒体、博客、GitHub提交、医学记录、文学作品、新闻和评论等。数据集经过两阶段的人工标注流程,确保校正的准确性。标注过程中,标注者被要求在不改变文本风格的前提下校正拼写错误,并严格按照俄语标点规则校正标点符号。数据集的结构包括数据实例、数据字段和数据分割信息,适用于自动拼写校正任务。
该数据集名为Russian Spellcheck Punctuation Benchmark,主要用于俄语拼写和标点校正任务。数据集包含四个子数据集,每个子数据集由包含拼写和标点错误的俄语句子及其校正后的句子对组成。数据来源多样,包括社交媒体、博客、GitHub提交、医学记录、文学作品、新闻和评论等。数据集经过两阶段的人工标注流程,确保校正的准确性。标注过程中,标注者被要求在不改变文本风格的前提下校正拼写错误,并严格按照俄语标点规则校正标点符号。数据集的结构包括数据实例、数据字段和数据分割信息,适用于自动拼写校正任务。
提供机构:
ai-forever
原始信息汇总
数据集概述
数据集基本信息
- 名称: Russian Spellcheck Punctuation Benchmark
- 语言: 俄语 (ru-RU)
- 许可证: MIT
- 多语言性: 单语
- 大小: 10K<n<100K
- 任务类别: 文本生成
- 标签: 拼写检查, 俄语
数据集内容
- 数据集概述: 该数据集是对Russian Spellcheck Benchmark的更新版本,专注于纠正标点符号。包含四个子数据集,每个子数据集由俄语句子对组成,其中一对包含可能的拼写和标点错误及其对应的修正。
- 数据来源: 数据集从多个领域和来源收集,包括社交媒体、互联网博客、GitHub提交、医疗病史、文学、新闻、评论等。
- 标注过程: 采用两阶段手动标注流程,确保至少两名标注者同意的修正。标注考虑了术语、搭配和常用语言,但标点符号严格遵循俄语标点系统规则。
数据集结构
-
数据实例: 示例包括源句子和修正后的句子,如:
{ "source": "давольно милый и летом и зимой обогреваемый теплым солнушком", "correction": "Довольно милый, и летом, и зимой обогреваемый тёплым солнышком.", }
-
数据字段: 每个子数据集包含
source(源句子)和correction(修正后的句子)字段,部分子数据集还包含domain(领域)字段。 -
数据分割: 数据集被分割为训练集和测试集,具体分割情况根据不同子数据集而异。
使用注意事项
- 偏见讨论: 数据集可能受限于特定领域,尽管已尝试通过包含单域和多域数据集来解决数据多样性的问题。
- 其他已知限制: 目前主要关注俄语,未来计划扩展到其他语言。
未来计划
- 计划扩展数据集,包括新的俄语数据集和其他语言(包括欧洲和CIS语言)的数据集。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个俄语拼写和标点修正基准,包含四个子数据集,每个子数据集由包含错误的源句子和其人工修正后的句子对组成,数据覆盖社交媒体、新闻、医疗记录等多领域。数据集通过两阶段人工标注确保修正准确性,并严格遵循俄语标点规则,适用于自动拼写修正任务的研究和评估。
以上内容由遇见数据集搜集并总结生成



