cl-nagoya/wikisplit-pp
收藏Hugging Face2024-04-19 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/cl-nagoya/wikisplit-pp
下载链接
链接失效反馈官方服务:
资源简介:
WikiSplit++数据集是WikiSplit的改进版本,通过NLI分类和句子顺序反转技术来减少噪声和幻觉。该数据集包含训练集、验证集和测试集,每个数据条目包含id、复杂句子、反转后的简单句子、分词后的简单句子、原始简单句子、蕴含概率和原始数据集的分割信息。实验结果表明,使用WikiSplit++进行训练比使用WikiSplit效果更好,即使在训练实例较少的情况下也能显著提高分割数量和蕴含比例。
WikiSplit++数据集是WikiSplit的改进版本,通过NLI分类和句子顺序反转技术来减少噪声和幻觉。该数据集包含训练集、验证集和测试集,每个数据条目包含id、复杂句子、反转后的简单句子、分词后的简单句子、原始简单句子、蕴含概率和原始数据集的分割信息。实验结果表明,使用WikiSplit++进行训练比使用WikiSplit效果更好,即使在训练实例较少的情况下也能显著提高分割数量和蕴含比例。
提供机构:
cl-nagoya
原始信息汇总
数据集概述
名称: WikiSplit++
语言: 英语
许可: CC-BY-SA-4.0
大小: 10M<n<100M
任务类别: 文本到文本生成
数据集特征
- id: 数据ID,整数类型
- complex: 复杂句子,字符串类型
- simple_reversed: 简单句子顺序反转,字符串类型
- simple_tokenized: 简单句子分词后(不反转顺序),序列字符串类型
- simple_original: 原始顺序的简单句子,字符串类型
- entailment_prob: 简单句子与复杂句子之间蕴含关系的平均概率,浮点数类型
- split: 数据分割类型(训练、验证、测试),字符串类型
数据分割
- 训练集: 504375个样本,380811358字节
- 验证集: 63065个样本,47599265字节
- 测试集: 62993个样本,47559833字节
数据集大小
- 下载大小: 337857760字节
- 数据集总大小: 475970456.0字节
配置
- 默认配置: 包含训练、验证和测试数据文件的路径配置
数据集改进
WikiSplit++通过应用两种技术改进原始WikiSplit:
- 通过NLI分类进行过滤
- 句子顺序反转 这些改进有助于减少噪声和幻觉现象。



