five

chaojiang06/wiki_auto

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/chaojiang06/wiki_auto
下载链接
链接失效反馈
官方服务:
资源简介:
WikiAuto数据集提供了一组从英文维基百科和简单英文维基百科中对齐的句子,作为训练句子简化系统的资源。作者首先通过众包方式在简单英文维基百科和英文维基百科的子集中手动对齐句子,然后训练了一个神经CRF系统来预测这些对齐。训练好的对齐预测模型随后应用于简单英文维基百科中具有英文对应版本的其他文章,以创建更大的对齐句子语料库。数据集支持文本简化任务,通常使用SARI和FKBLEU指标进行评估。数据集的创建者来自俄亥俄州立大学,数据集基于CC-BY-SA-3.0许可证。

WikiAuto数据集提供了一组从英文维基百科和简单英文维基百科中对齐的句子,作为训练句子简化系统的资源。作者首先通过众包方式在简单英文维基百科和英文维基百科的子集中手动对齐句子,然后训练了一个神经CRF系统来预测这些对齐。训练好的对齐预测模型随后应用于简单英文维基百科中具有英文对应版本的其他文章,以创建更大的对齐句子语料库。数据集支持文本简化任务,通常使用SARI和FKBLEU指标进行评估。数据集的创建者来自俄亥俄州立大学,数据集基于CC-BY-SA-3.0许可证。
提供机构:
chaojiang06
原始信息汇总

WikiAuto 数据集概述

数据集描述

数据集摘要

WikiAuto 提供了一组来自英语维基百科和简单英语维基百科的对齐句子,用于训练句子简化系统。数据集包括手动对齐和自动对齐两种配置。

支持的任务和排行榜

数据集用于支持 text-simplification 任务,评估指标包括 SARI 和 FKBLEU。

语言

数据集中的输入和输出均为英语(en)。

数据集结构

数据实例

数据集包含多种配置,每种配置的数据实例略有不同:

  • manual 配置:包含简单英语维基百科和对应英语维基百科的句子、句子ID、对齐标签和 GLEU 分数。
  • auto 配置:包含英语和简单英语维基百科的文章对齐,包括段落和句子级别的对齐。
  • auto_aclauto_full_no_splitauto_full_with_split 配置:从 auto 配置中筛选出的对齐句子对,用于训练序列到序列系统。

数据字段

数据包含以下字段:

  • normal_sentence:英语维基百科的句子。
  • normal_sentence_id:英语维基百科句子的唯一ID。
  • simple_sentence:简单英语维基百科的句子。
  • simple_sentence_id:简单英语维基百科句子的唯一ID。
  • alignment_label:句子对齐标签,包括 2:partialAligned1:aligned0:notAligned
  • paragraph_alignment:段落级别的对齐。
  • sentence_alignment:句子级别的对齐。
  • gleu_score:句子级别的 GLEU 分数。

数据分割

  • manual 配置:包含训练、验证和测试集。
  • auto 配置:包含 part_1part_2 分割。

数据集创建

策划理由

简单英语维基百科为文本简化系统提供了易于获取的训练数据,但句子级别的对齐仍然具有挑战性。该工作通过手动注释子集文章,实现了高精度的对齐预测,从而创建了高质量的句子级别对齐语料库。

源数据

数据集从 2019/09 维基百科 dump 中提取了 138,095 篇文章对,使用改进的 WikiExtractor 库和 SpaCy 库进行句子分割。

注释

句子对齐标签通过对 500 个随机采样的文档对进行注释获得,使用了多种相似度度量来预选对齐候选。

数据集信息

配置名称

  • manual
  • auto_acl
  • auto_full_no_split
  • auto_full_with_split
  • auto

特征

  • manual 配置:包含对齐标签、句子ID、句子内容和 GLEU 分数。
  • auto_acl 配置:包含英语和简单英语维基百科的句子。
  • auto 配置:包含文章ID、标题、URL、内容和句子对齐信息。
  • auto_full_no_splitauto_full_with_split 配置:包含英语和简单英语维基百科的句子。

分割

  • manual 配置:训练集 373801 条,验证集 73249 条,测试集 118074 条。
  • auto_acl 配置:全集 488332 条。
  • auto 配置:part_1 125059 条,part_2 13036 条。
  • auto_full_no_split 配置:全集 591994 条。
  • auto_full_with_split 配置:全集 483801 条。

下载和数据集大小

  • manual 配置:下载大小 168957430 字节,数据集大小 165802884 字节。
  • auto_acl 配置:下载大小 118068366 字节,数据集大小 121975414 字节。
  • auto 配置:下载大小 2160638921 字节,数据集大小 1853657946 字节。
  • auto_full_no_split 配置:下载大小 141574179 字节,数据集大小 146310611 字节。
  • auto_full_with_split 配置:下载大小 120678315 字节,数据集大小 124549115 字节。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WikiAuto数据集包含英文维基百科和简单英文维基百科的对齐句子,用于训练文本简化系统。数据集通过手动标注和自动预测相结合的方式,提供了一个高质量的句子对齐语料库,支持文本简化任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作