cl-nagoya/wikisplit-pp

Name: cl-nagoya/wikisplit-pp
Creator: cl-nagoya
Published: 2024-04-19 05:47:28
License: 暂无描述

Hugging Face2024-04-19 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/cl-nagoya/wikisplit-pp

下载链接

链接失效反馈

官方服务：

资源简介：

WikiSplit++数据集是WikiSplit的改进版本，通过NLI分类和句子顺序反转技术来减少噪声和幻觉。该数据集包含训练集、验证集和测试集，每个数据条目包含id、复杂句子、反转后的简单句子、分词后的简单句子、原始简单句子、蕴含概率和原始数据集的分割信息。实验结果表明，使用WikiSplit++进行训练比使用WikiSplit效果更好，即使在训练实例较少的情况下也能显著提高分割数量和蕴含比例。

提供机构：

cl-nagoya

原始信息汇总

数据集概述

名称： WikiSplit++

语言： 英语

许可： CC-BY-SA-4.0

大小： 10M<n<100M

任务类别： 文本到文本生成

数据集特征

id: 数据ID，整数类型
complex: 复杂句子，字符串类型
simple_reversed: 简单句子顺序反转，字符串类型
simple_tokenized: 简单句子分词后（不反转顺序），序列字符串类型
simple_original: 原始顺序的简单句子，字符串类型
entailment_prob: 简单句子与复杂句子之间蕴含关系的平均概率，浮点数类型
split: 数据分割类型（训练、验证、测试），字符串类型

数据分割

训练集： 504375个样本，380811358字节
验证集： 63065个样本，47599265字节
测试集： 62993个样本，47559833字节

数据集大小

下载大小： 337857760字节
数据集总大小： 475970456.0字节

配置

默认配置： 包含训练、验证和测试数据文件的路径配置

数据集改进

WikiSplit++通过应用两种技术改进原始WikiSplit：

通过NLI分类进行过滤
句子顺序反转这些改进有助于减少噪声和幻觉现象。

5,000+

优质数据集

54 个

任务类型

进入经典数据集