bismarck91/enA-frA-tokenised-bc-part1

Name: bismarck91/enA-frA-tokenised-bc-part1
Creator: bismarck91
Published: 2025-11-18 14:57:38
License: 暂无描述

Hugging Face2025-11-18 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/bismarck91/enA-frA-tokenised-bc-part1

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: global_tokens_src sequence: sequence: int32 - name: semantic_tokens_src sequence: int64 - name: global_tokens_tgt sequence: sequence: int32 - name: semantic_tokens_tgt sequence: int64 splits: - name: train num_bytes: 5038441096.0 num_examples: 1200000 download_size: 1197713711 dataset_size: 5038441096.0 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息：特征字段： - 特征名称：源端全局Token（global_tokens_src），为嵌套序列结构，内层元素为32位整型（int32）序列 - 特征名称：源端语义Token（semantic_tokens_src），为64位整型（int64）序列 - 特征名称：目标端全局Token（global_tokens_tgt），为嵌套序列结构，内层元素为32位整型（int32）序列 - 特征名称：目标端语义Token（semantic_tokens_tgt），为64位整型（int64）序列数据集拆分： - 拆分名称：训练集（train），占用存储空间为5038441096.0字节，样本总量为1200000 下载大小为1197713711字节，数据集总存储大小为5038441096.0字节配置项： - 配置名称：默认配置（default），对应数据文件如下： - 对应拆分：训练集（train），数据文件路径为data/train-*

提供机构：

bismarck91

5,000+

优质数据集

54 个

任务类型

进入经典数据集