ddeer/cipher-wmt18-zh-en-char0
收藏Hugging Face2026-02-27 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/ddeer/cipher-wmt18-zh-en-char0
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: orig_id
dtype: int64
- name: split
dtype: string
- name: src_lang
dtype: string
- name: tgt_lang
dtype: string
- name: src
dtype: string
- name: tgt
dtype: string
- name: src_encrypted
dtype: string
- name: encrypt_unit
dtype: string
- name: encrypt_ratio
dtype: float64
- name: encrypt_char_opt
dtype: string
- name: rand_run_name
dtype: string
- name: dataset_name
dtype: string
- name: dataset_config_name
dtype: string
splits:
- name: train
num_bytes: 115210562
num_examples: 217541
- name: validation
num_bytes: 75772
num_examples: 144
- name: test
num_bytes: 242123
num_examples: 444
download_size: 71008991
dataset_size: 115528457
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集信息:
特征字段:
- 名称:原始标识符(orig_id),数据类型:64位整数
- 名称:子集标识(split),数据类型:字符串
- 名称:源语言(src_lang),数据类型:字符串
- 名称:目标语言(tgt_lang),数据类型:字符串
- 名称:源文本(src),数据类型:字符串
- 名称:目标文本(tgt),数据类型:字符串
- 名称:加密源文本(src_encrypted),数据类型:字符串
- 名称:加密单元(encrypt_unit),数据类型:字符串
- 名称:加密比例(encrypt_ratio),数据类型:64位浮点数
- 名称:加密字符选项(encrypt_char_opt),数据类型:字符串
- 名称:随机运行标识(rand_run_name),数据类型:字符串
- 名称:数据集名称(dataset_name),数据类型:字符串
- 名称:数据集配置名称(dataset_config_name),数据类型:字符串
子集信息:
- 名称:训练集(train),字节占用量:115210562,样本数量:217541
- 名称:验证集(validation),字节占用量:75772,样本数量:144
- 名称:测试集(test),字节占用量:242123,样本数量:444
下载总大小:71008991
数据集总存储大小:115528457
配置项:
- 配置名称:默认配置(default),数据文件:
- 子集:训练集(train),路径:data/train-*
- 子集:验证集(validation),路径:data/validation-*
- 子集:测试集(test),路径:data/test-*
提供机构:
ddeer



