five

cl-nagoya/wikisplit-pp

收藏
Hugging Face2024-04-19 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/cl-nagoya/wikisplit-pp
下载链接
链接失效反馈
官方服务:
资源简介:
WikiSplit++数据集是WikiSplit的改进版本,通过NLI分类和句子顺序反转技术来减少噪声和幻觉。该数据集包含训练集、验证集和测试集,每个数据条目包含id、复杂句子、反转后的简单句子、分词后的简单句子、原始简单句子、蕴含概率和原始数据集的分割信息。实验结果表明,使用WikiSplit++进行训练比使用WikiSplit效果更好,即使在训练实例较少的情况下也能显著提高分割数量和蕴含比例。

WikiSplit++数据集是WikiSplit的改进版本,通过NLI分类和句子顺序反转技术来减少噪声和幻觉。该数据集包含训练集、验证集和测试集,每个数据条目包含id、复杂句子、反转后的简单句子、分词后的简单句子、原始简单句子、蕴含概率和原始数据集的分割信息。实验结果表明,使用WikiSplit++进行训练比使用WikiSplit效果更好,即使在训练实例较少的情况下也能显著提高分割数量和蕴含比例。
提供机构:
cl-nagoya
原始信息汇总

数据集概述

名称: WikiSplit++

语言: 英语

许可: CC-BY-SA-4.0

大小: 10M<n<100M

任务类别: 文本到文本生成

数据集特征

  • id: 数据ID,整数类型
  • complex: 复杂句子,字符串类型
  • simple_reversed: 简单句子顺序反转,字符串类型
  • simple_tokenized: 简单句子分词后(不反转顺序),序列字符串类型
  • simple_original: 原始顺序的简单句子,字符串类型
  • entailment_prob: 简单句子与复杂句子之间蕴含关系的平均概率,浮点数类型
  • split: 数据分割类型(训练、验证、测试),字符串类型

数据分割

  • 训练集: 504375个样本,380811358字节
  • 验证集: 63065个样本,47599265字节
  • 测试集: 62993个样本,47559833字节

数据集大小

  • 下载大小: 337857760字节
  • 数据集总大小: 475970456.0字节

配置

  • 默认配置: 包含训练、验证和测试数据文件的路径配置

数据集改进

WikiSplit++通过应用两种技术改进原始WikiSplit:

  • 通过NLI分类进行过滤
  • 句子顺序反转 这些改进有助于减少噪声和幻觉现象。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作