five

osyvokon/wiki-edits-uk

收藏
Hugging Face2022-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/osyvokon/wiki-edits-uk
下载链接
链接失效反馈
官方服务:
资源简介:
乌克兰维基百科编辑数据集包含超过500万条从乌克兰维基百科历史修订中提取的句子编辑。这些编辑经过编辑距离和句子长度的过滤,适用于语法错误纠正(GEC)或拼写检查模型的预训练。数据集的结构包括编辑前后的句子,分为完整训练集和小样本训练集。数据集的创建基于2022年4月30日的乌克兰维基百科完整转储,使用了wikiedits工具和自定义脚本进行处理。数据集的注释是通过比较两个连续的页面修订推断出来的,注释者是编辑维基百科页面的人。数据集存在一定的噪声,包括事实更改和破坏性编辑。
提供机构:
osyvokon
原始信息汇总

Ukrainian Wikipedia Edits 数据集概述

数据集基本信息

  • 名称: Ukrainian Wikipedia Edits
  • 语言: 乌克兰语 (uk-UA)
  • 许可证: CC-BY-3.0
  • 多语言性: 单语种, 翻译
  • 数据集大小: 1M<n<10M
  • 来源: 原始数据
  • 任务类别: 其他

数据集内容

数据集摘要

  • 描述: 从乌克兰语维基百科历史修订中提取的超过5M句子的编辑集合。
  • 用途: 适用于语法错误修正(GEC)或拼写检查模型预训练。

支持的任务和排行榜

  • 任务: 乌克兰语法错误修正 (GEC), 乌克兰拼写修正
  • 相关链接: UA-GEC

数据集结构

  • 数据字段:
    • src: 编辑前的句子
    • tgt: 编辑后的句子
  • 数据分割:
    • full/train: 包含所有数据 (5,243,376样本)
    • tiny/train: 包含5000个样本

数据集创建

源数据

  • 初始数据收集和标准化: 维基百科
  • 源语言生产者: 维基百科作者

注释

  • 注释过程: 通过比较两个连续的页面修订来推断注释
  • 注释者: 维基百科页面编辑者

使用数据时的考虑

  • 已知限制: 数据嘈杂, 包含语法和拼写编辑之外的事实更改和破坏行为。

附加信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作