chaojiang06/wiki_auto
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/chaojiang06/wiki_auto
下载链接
链接失效反馈官方服务:
资源简介:
WikiAuto数据集提供了一组从英文维基百科和简单英文维基百科中对齐的句子,作为训练句子简化系统的资源。作者首先通过众包方式在简单英文维基百科和英文维基百科的子集中手动对齐句子,然后训练了一个神经CRF系统来预测这些对齐。训练好的对齐预测模型随后应用于简单英文维基百科中具有英文对应版本的其他文章,以创建更大的对齐句子语料库。数据集支持文本简化任务,通常使用SARI和FKBLEU指标进行评估。数据集的创建者来自俄亥俄州立大学,数据集基于CC-BY-SA-3.0许可证。
WikiAuto数据集提供了一组从英文维基百科和简单英文维基百科中对齐的句子,作为训练句子简化系统的资源。作者首先通过众包方式在简单英文维基百科和英文维基百科的子集中手动对齐句子,然后训练了一个神经CRF系统来预测这些对齐。训练好的对齐预测模型随后应用于简单英文维基百科中具有英文对应版本的其他文章,以创建更大的对齐句子语料库。数据集支持文本简化任务,通常使用SARI和FKBLEU指标进行评估。数据集的创建者来自俄亥俄州立大学,数据集基于CC-BY-SA-3.0许可证。
提供机构:
chaojiang06
原始信息汇总
WikiAuto 数据集概述
数据集描述
数据集摘要
WikiAuto 提供了一组来自英语维基百科和简单英语维基百科的对齐句子,用于训练句子简化系统。数据集包括手动对齐和自动对齐两种配置。
支持的任务和排行榜
数据集用于支持 text-simplification 任务,评估指标包括 SARI 和 FKBLEU。
语言
数据集中的输入和输出均为英语(en)。
数据集结构
数据实例
数据集包含多种配置,每种配置的数据实例略有不同:
manual配置:包含简单英语维基百科和对应英语维基百科的句子、句子ID、对齐标签和 GLEU 分数。auto配置:包含英语和简单英语维基百科的文章对齐,包括段落和句子级别的对齐。auto_acl、auto_full_no_split和auto_full_with_split配置:从auto配置中筛选出的对齐句子对,用于训练序列到序列系统。
数据字段
数据包含以下字段:
normal_sentence:英语维基百科的句子。normal_sentence_id:英语维基百科句子的唯一ID。simple_sentence:简单英语维基百科的句子。simple_sentence_id:简单英语维基百科句子的唯一ID。alignment_label:句子对齐标签,包括2:partialAligned、1:aligned和0:notAligned。paragraph_alignment:段落级别的对齐。sentence_alignment:句子级别的对齐。gleu_score:句子级别的 GLEU 分数。
数据分割
manual配置:包含训练、验证和测试集。auto配置:包含part_1和part_2分割。
数据集创建
策划理由
简单英语维基百科为文本简化系统提供了易于获取的训练数据,但句子级别的对齐仍然具有挑战性。该工作通过手动注释子集文章,实现了高精度的对齐预测,从而创建了高质量的句子级别对齐语料库。
源数据
数据集从 2019/09 维基百科 dump 中提取了 138,095 篇文章对,使用改进的 WikiExtractor 库和 SpaCy 库进行句子分割。
注释
句子对齐标签通过对 500 个随机采样的文档对进行注释获得,使用了多种相似度度量来预选对齐候选。
数据集信息
配置名称
manualauto_aclauto_full_no_splitauto_full_with_splitauto
特征
manual配置:包含对齐标签、句子ID、句子内容和 GLEU 分数。auto_acl配置:包含英语和简单英语维基百科的句子。auto配置:包含文章ID、标题、URL、内容和句子对齐信息。auto_full_no_split和auto_full_with_split配置:包含英语和简单英语维基百科的句子。
分割
manual配置:训练集 373801 条,验证集 73249 条,测试集 118074 条。auto_acl配置:全集 488332 条。auto配置:part_1125059 条,part_213036 条。auto_full_no_split配置:全集 591994 条。auto_full_with_split配置:全集 483801 条。
下载和数据集大小
manual配置:下载大小 168957430 字节,数据集大小 165802884 字节。auto_acl配置:下载大小 118068366 字节,数据集大小 121975414 字节。auto配置:下载大小 2160638921 字节,数据集大小 1853657946 字节。auto_full_no_split配置:下载大小 141574179 字节,数据集大小 146310611 字节。auto_full_with_split配置:下载大小 120678315 字节,数据集大小 124549115 字节。
搜集汇总
数据集介绍

背景与挑战
背景概述
WikiAuto数据集包含英文维基百科和简单英文维基百科的对齐句子,用于训练文本简化系统。数据集通过手动标注和自动预测相结合的方式,提供了一个高质量的句子对齐语料库,支持文本简化任务。
以上内容由遇见数据集搜集并总结生成



