five

sharad461/ne-en-parallel-177k

收藏
Hugging Face2024-05-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sharad461/ne-en-parallel-177k
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: ne dtype: string - name: en dtype: string splits: - name: train num_bytes: 68528573 num_examples: 168467 - name: valid num_bytes: 1803608 num_examples: 4433 - name: test num_bytes: 1795690 num_examples: 4434 download_size: 35582440 dataset_size: 72127871 configs: - config_name: default data_files: - split: train path: data/train-* - split: valid path: data/valid-* - split: test path: data/test-* ---

The dataset includes two main features: ne and en, both of which are string types. The dataset is divided into three parts: training set (train), validation set (valid), and test set (test). The training set contains 168467 samples, the validation set contains 4433 samples, and the test set contains 4434 samples. The total download size of the dataset is 35582440 bytes, and the total size is 72127871 bytes. The dataset configuration is set to default, with data files located at data/train-*, data/valid-*, and data/test-* paths.
提供机构:
sharad461
原始信息汇总

数据集概述

数据集特征

  • ne: 数据类型为字符串
  • en: 数据类型为字符串

数据集分割

  • 训练集 (train):
    • 示例数量: 168467
    • 字节数: 68528573
  • 验证集 (valid):
    • 示例数量: 4433
    • 字节数: 1803608
  • 测试集 (test):
    • 示例数量: 4434
    • 字节数: 1795690

数据集大小

  • 下载大小: 35582440 字节
  • 数据集总大小: 72127871 字节

数据文件配置

  • 默认配置 (default):
    • 训练集路径: data/train-*
    • 验证集路径: data/valid-*
    • 测试集路径: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作