cl-nagoya/wikisplit
收藏Hugging Face2024-04-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/cl-nagoya/wikisplit
下载链接
链接失效反馈官方服务:
资源简介:
WikiSplit数据集的预处理版本。由于原始WikiSplit数据集已被标记化并包含一些噪声,我们使用了Moses detokenizer进行去标记化并移除了文本片段。该预处理数据集是WikiSplit++的基础。
WikiSplit数据集的预处理版本。由于原始WikiSplit数据集已被标记化并包含一些噪声,我们使用了Moses detokenizer进行去标记化并移除了文本片段。该预处理数据集是WikiSplit++的基础。
提供机构:
cl-nagoya
原始信息汇总
数据集概述
数据集基本信息
- 名称: WikiSplit
- 语言: 英语(en)
- 任务类别: 文本到文本生成(text2text-generation)
- 大小类别: 100K<n<1M
- 许可证: cc-by-sa-4.0
数据集特征
- id: 整数类型(int64)
- complex: 字符串类型(string)
- simple: 字符串类型(string)
- split: 字符串类型(string)
数据集拆分
- 训练集(train): 795585个样本,占用309170607字节
- 验证集(validation): 99448个样本,占用38667164字节
- 测试集(test): 99448个样本,占用38650132字节
- 全部(all): 994481个样本,占用386487903字节
数据集大小
- 下载大小: 540598777字节
- 数据集大小: 772975806字节
数据文件配置
- 默认配置(default):
- 训练集路径: data/train-*
- 验证集路径: data/validation-*
- 测试集路径: data/test-*
- 全部集路径: data/all-*



