liswei/coct-en-zhtw-dedup
收藏Hugging Face2024-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/liswei/coct-en-zhtw-dedup
下载链接
链接失效反馈官方服务:
资源简介:
COCT en-zhtw deduplicate数据集是一个去重版本的数据集,来源于zetavg/coct-en-zh-tw-translations-twp-300k。该数据集包含英文和繁体中文的翻译对,去重过程对这两种语言都进行了两次。数据集主要用于翻译、文本生成、文本到文本生成和句子相似性任务。
COCT en-zhtw deduplicate数据集是一个去重版本的数据集,来源于zetavg/coct-en-zh-tw-translations-twp-300k。该数据集包含英文和繁体中文的翻译对,去重过程对这两种语言都进行了两次。数据集主要用于翻译、文本生成、文本到文本生成和句子相似性任务。
提供机构:
liswei
原始信息汇总
数据集概述
基本信息
- 数据集名称: COCT en-zhtw deduplicate
- 数据集大小: 85618227 字节
- 下载大小: 62894787 字节
- 训练集大小: 85618227 字节
- 训练集样本数: 216762 个
数据结构
- 特征:
- en: 字符串类型
- ch: 字符串类型
数据划分
- 训练集:
- 路径: data/train-*
- 文件数: 未提供
语言
- 繁体中文 (zht)
- 中文 (zh)
任务类别
- 翻译
- 文本到文本生成
- 文本生成
- 句子相似度
大小类别
- 100K < n < 1M



