ai-forever/spellcheck_punctuation_benchmark

Name: ai-forever/spellcheck_punctuation_benchmark
Creator: ai-forever
Published: 2024-04-03 12:42:11
License: 暂无描述

Hugging Face2024-04-03 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/ai-forever/spellcheck_punctuation_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Russian Spellcheck Punctuation Benchmark，主要用于俄语拼写和标点校正任务。数据集包含四个子数据集，每个子数据集由包含拼写和标点错误的俄语句子及其校正后的句子对组成。数据来源多样，包括社交媒体、博客、GitHub提交、医学记录、文学作品、新闻和评论等。数据集经过两阶段的人工标注流程，确保校正的准确性。标注过程中，标注者被要求在不改变文本风格的前提下校正拼写错误，并严格按照俄语标点规则校正标点符号。数据集的结构包括数据实例、数据字段和数据分割信息，适用于自动拼写校正任务。

提供机构：

ai-forever

原始信息汇总

数据集概述

数据集基本信息

名称: Russian Spellcheck Punctuation Benchmark
语言: 俄语 (ru-RU)
许可证: MIT
多语言性: 单语
大小: 10K<n<100K
任务类别: 文本生成
标签: 拼写检查, 俄语

数据集内容

数据集概述: 该数据集是对Russian Spellcheck Benchmark的更新版本，专注于纠正标点符号。包含四个子数据集，每个子数据集由俄语句子对组成，其中一对包含可能的拼写和标点错误及其对应的修正。
数据来源: 数据集从多个领域和来源收集，包括社交媒体、互联网博客、GitHub提交、医疗病史、文学、新闻、评论等。
标注过程: 采用两阶段手动标注流程，确保至少两名标注者同意的修正。标注考虑了术语、搭配和常用语言，但标点符号严格遵循俄语标点系统规则。

数据集结构

数据实例: 示例包括源句子和修正后的句子，如：

{ "source": "давольно милый и летом и зимой обогреваемый теплым солнушком", "correction": "Довольно милый, и летом, и зимой обогреваемый тёплым солнышком.", }
数据字段: 每个子数据集包含source（源句子）和correction（修正后的句子）字段，部分子数据集还包含domain（领域）字段。
数据分割: 数据集被分割为训练集和测试集，具体分割情况根据不同子数据集而异。