osyvokon/wiki-edits-uk
收藏Hugging Face2022-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/osyvokon/wiki-edits-uk
下载链接
链接失效反馈官方服务:
资源简介:
乌克兰维基百科编辑数据集包含超过500万条从乌克兰维基百科历史修订中提取的句子编辑。这些编辑经过编辑距离和句子长度的过滤,适用于语法错误纠正(GEC)或拼写检查模型的预训练。数据集的结构包括编辑前后的句子,分为完整训练集和小样本训练集。数据集的创建基于2022年4月30日的乌克兰维基百科完整转储,使用了wikiedits工具和自定义脚本进行处理。数据集的注释是通过比较两个连续的页面修订推断出来的,注释者是编辑维基百科页面的人。数据集存在一定的噪声,包括事实更改和破坏性编辑。
提供机构:
osyvokon
原始信息汇总
Ukrainian Wikipedia Edits 数据集概述
数据集基本信息
- 名称: Ukrainian Wikipedia Edits
- 语言: 乌克兰语 (uk-UA)
- 许可证: CC-BY-3.0
- 多语言性: 单语种, 翻译
- 数据集大小: 1M<n<10M
- 来源: 原始数据
- 任务类别: 其他
数据集内容
数据集摘要
- 描述: 从乌克兰语维基百科历史修订中提取的超过5M句子的编辑集合。
- 用途: 适用于语法错误修正(GEC)或拼写检查模型预训练。
支持的任务和排行榜
- 任务: 乌克兰语法错误修正 (GEC), 乌克兰拼写修正
- 相关链接: UA-GEC
数据集结构
- 数据字段:
src: 编辑前的句子tgt: 编辑后的句子
- 数据分割:
full/train: 包含所有数据 (5,243,376样本)tiny/train: 包含5000个样本
数据集创建
源数据
- 初始数据收集和标准化: 维基百科
- 源语言生产者: 维基百科作者
注释
- 注释过程: 通过比较两个连续的页面修订来推断注释
- 注释者: 维基百科页面编辑者
使用数据时的考虑
- 已知限制: 数据嘈杂, 包含语法和拼写编辑之外的事实更改和破坏行为。
附加信息
- 数据集创建者: Oleksiy Syvokon
- 贡献者:



